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译 者 简介 
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内 容 提 要 


本 书 这 一 版 针对 Elasticsearch 的 最 新 版 本 更 新 了 内 容 ， 增 加 了 第 1 版 中 遗漏 的 重要 内 容 。 本 书 首先 对 
Elasticsearch 作 一 般 性 介绍 ， 其 中 包括 如 何 启 动 和 运行 Elasticsearch、Elasticsearch 的 基本 概念 ， 以 及 如 何以 
最 基本 的 方式 索引 和 搜索 数据 。 接 下 来 ， 本 书 讨论 了 Querydsl 查询 语言 ， 通 过 它 可 以 创建 复杂 的 查询 并 过 
滤 返 回 的 结果 。 此 外 ， 本 书 还 展示 了 如 何 使 用 切面 技术 (faceting) 基于 查询 结果 来 计算 汇总 数据 ， 如 何 使 
用 新 引进 的 聚合 框架 ， 如 何 使 用 Elasticsearch 的 空间 搜索 和 预 搜索 。 最 后 ， 这 本 书 将 向 你 展示 Elasticsearch 
的 管理 API， 如 分 片 安置 控制 和 集群 处 理 等 功能 。 

不 管 你 是 全 文 检索 和 Elasticsearch 的 初学 者 ， 还 是 使 用 过 Elasticsearch， 你 都 能 从 本 书 中 有 所 收获 。 
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了 中 


前 


欢迎 阅读 本 书 的 第 2 版 ， 这 一 版 不 仅 针对 Elasticsearch 的 最 新 版 本 更 新 了 内 容 ， 还 添加 了 一 些 
在 第 1 版 中 遗漏 的 重要 内 容 。 阅 读 这 本 书 ， 你 将 踏 上 Elasticsearch 服 务 器 提供 的 全 文 检索 的 精彩 旅 
程 。 本 书 首先 对 Elasticsearch 进 行 一 般 性 介绍 , 其 中 包括 如 何 启动 和 运行 Elasticsearch、 Elasticsearch 
的 基本 概念 ， 以 及 如 何以 最 基本 的 方式 索引 和 搜索 数据 。 


本 书 也 将 讨论 被 称 为 Querydsl 的 查询 语言 ， 通 过 它 可 以 创建 复杂 的 查询 并 过 滤 返 回 的 结果 。 
除了 这 些 ， 你 还 将 看 到 如 何 使 用 切面 技术 ( faceting ) 基于 查询 结果 来 计算 汇总 数据 ， 以 及 如 何 
使 用 新 引进 的 聚合 框架 (分析 引擎， 可 以 为 你 的 数据 赋予 意义 ),。 我 们 将 共同 实现 自动 完成 功能 ， 
并 学 习 如 何 使 用 Elasticsearch 的 空间 搜索 能 力 (spatial capability ) 和 预 搜 索 ( prospective search )。 


最 后 ， 这 本 书 将 向 你 展示 Elasticsearch 的 管理 API， 如 分 片 安置 控制 和 集群 处 理 等 功能 。 




































































本 书 主要 内 容 
第 1 章 ”Elasticsearch 和 集群 入 门 ， 介 绍 什么 是 全 文 检索 、Apache Lucene、 文 本 分 析 、 如 何 运 


行 和 配置 Elasticsearch。 最 后 ， 还 会 说 明 如 何以 最 基本 的 方式 索引 和 搜索 数据 。 


第 2 章 索引， 展示 索引 的 工作 原理 ， 如 何 创 建 索引 结构 ， 可 以 使 用 什么 样 的 数据 类 型 ， 如 
何 加 速 索 引 ， 什 么 是 段 ( segment )， 合 并 (merging ) 是 如 何 工作 的 ， 什 么 是 路 由 (routing )。 


第 3 章 搜索 ,介绍 Elasticsearch 的 全 文 搜索 功能 。 我 们 讨论 如 何 查询 ， 查 询 的 工作 原理 ， 有 
哪些 基本 查询 和 复合 查询 。 除 此 之 外 ,本章 还 将 展示 如 何 过滤 查 询 结 果 ， 如 何 高 亮 显 示 以 及 修改 
查询 结果 的 排序 。 


第 4 章 ， 扩展 索引 结构 ， 讨 论 如 何 索引 更 复杂 的 数据 结构 。 本 章 讨论 如 何 索 引 树 状 数据 类 型 
和 关系 型 数据 ， 以 及 修改 索引 的 结构 。 


第 5 章 更 好 的 搜索 ,涵盖 Apache Lucene 的 评分 功能 ， 以 及 使 用 Elasticsearch 的 脚本 功能 和 语 
言 分 析 器 如 何 影响 评分 。 


第 6 章 ”超越 全 文 检 索 ， 详 细 介绍 聚合 框架 的 功能 、 切 面 以 及 如 何 使 用 Elasticsearch 实 现 拼写 
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检查 和 自动 完成 功能 。 此 外 ,读者 将 学 会 如 何 索引 二 进 制 文件 、 处 理 地 理 空间 数据 ， 以 及 高 效 处 
理 大 数据 集 。 


第 7 章 深入 Elasticsearch 集 群 ， 讨 论 节点 发 现 机 制 ， 恢 复 和 时 光 之 门 (Gateway ) 模块 ， 高 
查询 和 高 索引 用 例 场 景 下 的 模板 和 集群 。 


第 8 章 ”集群 管理 ， 涵 盖 Elasticsearch 备 份 功能 、 集 群 监控 、 再 平衡 和 移动 分 片 。 除 此 之 外 ， 
你 还 会 学 到 如 何 使 用 热身 功能 和 别名 ， 安 装 择 件 ， 以 及 使 用 更 新 API 来 更 新 集群 设置 。 


学 习 本 书 的 准备 工作 


这 本 书 所 有 的 例子 和 功能 都 是 用 Elasticsearch 服 务 需 1.0.0 版 本 写 的 ， 此 外 ， 你 需要 一 个 用 来 
发 送 HTTP 请 求 的 命令 工具 ， 比 如 cURL， 它 在 大 多 数 操作 系统 上 都 可 用 。 请 注意 ,本 书 中 的 所 有 
例子 都 使 用 cURL。 如 果 你 想 使 用 另 一 种 工具 ， 请 注意 修改 HTTP 请 求 的 格式 ， 以 便 适 合 你 所 选择 
的 工具 。 


此 外 ， 某 些 章节 可 能 需要 额外 的 软件 ， 例 如 Elasticsearch 插 件 ， 需 要 时 我 们 会 明确 提 及 。 


本 书 读者 对 象 

如 果 你 是 一 个 全 文 检索 和 Elasticsearch 的 初学 者 ， 那 么 本 书 就 是 为 你 准备 的 。 你 将 学 到 
Elasticsearch 的 基础 知识 ， 以 及 如 何 使 用 一 些 高 级 功能 。 

如 果 你 已 经 知道 并 使 用 了 Elasticsearch， 仍 然 会 发 现 本 书 很 有 趣 ， 因 为 它 通 过 例子 和 描述 ， 
很 好 地 概述 了 Elasticsearch 的 所 有 功能 。 


如 果 你 知道 Apache Solr 搜 索引 警 ， 那 么 这 本 书 也 可 以 用 来 比较 Apache Solr 和 Elasticsearch 的 
某 些 功能 。 了 解 一 些 Elasticsearch 的 知识 后 ， 你 可 能 会 发 现 它 更 适合 你 。 



























































排版 规范 


在 这 本 书 中 , 你 会 发 现 一 些 不 同 的 文本 样式 用 以 区 别 不 同 种 类 的 信息 。 下 面 是 这 些 样 式 的 一 
些 例子 和 解释 。 


口 楷体 
用 于 表示 新 术 话 。 
口 等 宽 字 体 


表示 程序 中 使 用 的 变量 名 、 关 键 字 。 
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Vi 前 言 





代码 段 格式 如 下 所 示 : 
{ 
"status" : 200, 
"name" : "es_server", 
"version" : { 
"met™ 3 “00 
"build_ hash" : "a46900e9c72c0a623d71b54016357d5f94c8ea32", 
"build timestamp" : "2014-02-12T16:18:342Z", 
"build_ snapshot" : false, 
"Jucene version" : "4.6" 
} 
"tagline" : "You Know, for Search" 


} 
当 我 们 希望 你 注意 代码 块 中 的 某 些 部 分 时 ， 相 关 的 行 或 者 文字 会 被 加 粗 : 


{ 
"mappings" : { 
"Bost 3 
"properties" : { 
"id" { "type s Vong.;, vetore. vs vyes.; 
"precision step" : "0" }, 
"mame"™ Ss { "type™ 全 "Btring"y "StoOre" S vyes", 
"index" : "analyzed", "similarity" : "BM25" }, 
vaontente $4 Ttype s eteing", etorg % Mnov, 
"index" : "analyzed", "similarity" : "BM25" } 
} 
} 
} 
} 


命令 行 输入 或 输出 如 下 所 示 : 


Curl -XGET http://localhost:9200/blog/article/1 


QQ 这 个 图 标 表示 提示 或 者 技巧 。 


读者 反馈 


次 迎 提 出 反馈 ,你 对 本 书 有 任何 想法 ， 喜欢 它 什 么 ,不 喜欢 它 什 么 ,请 让 我 们 知道 。 要 写 出 





真正 对 大 家 有 帮助 的 图 书 ， 读 考 的 反馈 很 重要 。 
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一 般 的 反馈 , 请 发 送 电子 邮件 至 feedback@packtpub.com, 并 在 邮件 主题 中 包含 书 名 。 如 果 你 
有 某 个 主题 的 专业 知识 ， 并 且 有 兴趣 写成 或 帮助 促成 一 本 书 ， 请 参考 我 们 的 作者 指南 
http://www.packtpub.comyauthors。 


客户 支持 


现在 , 





3 





是 一 位 令 我 们 自 聚 的 Packt 图 书 的 拥有 者 ， 我 们 会 尽 全 力 帮 你 充分 利用 你 手中 的 书 。 


Pe 


下 载 示 例 代码 


你 可 以 用 你 的 账户 从 http:/www.packtpub.com 下 载 所 有 已 购买 Packt 图 书 的 示例 代码 文件 。 如 
果 你 从 其 他 地 方 购买 本 书 ， 可 以 访问 http:/www.packtpub.com/support 并 注册 ， 我 们 将 通过 电子 邮 
件 把 文件 发 送 给 你 。 


勘误 表 


虽然 我 们 已 尽力 确保 本 书 内 容 正 确 ， 但 出 错 仍 旧 在 所 难免 。 如 果 你 在 我 们 的 书 中 发 现 错 误 ， 
不 管 是 文本 还 是 代码 ， 希 望 能 告知 我 们 ， 我 们 不 胜 感激 。 这 样 做 ， 你 可 以 使 其 他 读者 免 受挫 败 ， 
帮助 我 们 改进 本 书 的 后 续 版 本 。 如 果 你 发 现任 何 错误 ， 请 访问 http://www.packtpub.com/ 
submit-errata 提 交 ， 选 择 你 的 书 ， 点 击 勘 误 表 提交 表单 的 链接 ， 并 输入 详细 说 明 。 勘 误 一 经 核实 ， 
你 的 提交 将 被 接受 ， 此 勘误 将 上 传 到 本 公司 网 站 或 添加 到 现 有 勘误 表 。 从 http:/www.packtpub. 
com/support 选 择 书 名 就 可 以 查看 现 有 的 勘误 表 。 


侵权 行为 
版 权 材料 在 互联 网 上 的 盗版 是 所 有 媒体 都 要 面 对 的 问题 。Packt 非 常 重视 保护 版 权 和 许可 证 。 


如 果 你 发 现 我 们 的 作品 在 互联 网 上 被 非法 复制 , 不 管 以 什么 形式 , 都 请 立即 为 我 们 提供 位 置地 址 
或 网 站 名 称 ， 以 便 我 们 可 以 寻求 补救 。 


请 把 可 疑 盗版 材料 的 链接 发 到 copyright@packtpub.com。 
非常 感谢 你 帮助 我 们 保护 作者 ， 以 及 保护 我 们 给 你 带 来 有 价值 内 容 的 能 



















































































问题 


如 果 你 对 本 书 内 容 存 有 疑问 ， 不 管 是 哪个 方面 ， 都 可 以 通过 questions@packtpub.com 联 系 我 
们 ， 我 们 将 尽 最 大 努力 来 解决 。 
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Rafat Ku 个 人 致谢 


你 手中 的 这 本 书 是 2013 年 年 初 的 Elasticsearch Server 一 书 的 升级 版 。 自 那 以 后 ，Elasticsearch 
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Packt 账 户 的 免费 访问 


如 果 你 已 经 有 www.PacktPub.com 的 Packt 账 户 ， 可 以 使 用 它 来 访问 PacktLib 并 阅读 9 本 免费 图 
书 。 只 需要 使 用 你 的 登录 凭据 直接 访问 。 
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欢迎 来 到 Elasticsearch 的 奇妙 世界 ， 它 是 优秀 的 全 文 检索 和 分 析 引 擎 。 不 管 你 对 Elasticsearch 
和 全 文 检索 有 没有 经 验 ， 都 不 要 紧 。 我 们 希望 你 可 以 通过 这 本 书 ， 学 习 并 扩展 Elasticsearch 的 知 
识 。 由 于 这 本 书 也 是 为 初学 者 准备 的 , 我 们 决定 先 简单 介绍 一 般 性 的 全 文 检索 概念 ， 接 着 再 简要 
概述 Elasticsearch。 

我 们 要 做 的 第 一 件 事 就 是 安装 Elasticsearch。 与 许多 应 用 相同 ， 你 从 安装 和 配置 着 手 ， 并 经 
常 忘 记 这 些 步 又 的 重要 性 。 我 们 会 尽量 引导 你 完成 这 些 步 又 ， 从 而 使 你 更 容易 记 住 要 点 。 此 外 ， 
我 们 将 告诉 你 如 何 用 最 简单 的 方法 来 索引 和 检索 数据 ， 而 不 用 陷 人 太 多 细节 。 读 完 本 章 ， 你 将 学 
到 以 下 内 容 : 

口 全 文 检索 ; 

口 了 解 Apache Lucene; 

口 文本 分 析 ; 

口 学 习 Elasticsearch 的 基本 概念 ; 

口 安装 和 配置 Elasticsearch ; 

口 使 用 Elasticsearch REST AP[ 来 操纵 数据 ; 
口 使 用 基本 的 URI 请 求 来 搜索 。 


1.1 全 文 检索 


在 全 文 检索 只 为 一 小 部 分 工程 师 所 知 的 时 代 ， 我 们 大 多 数 人 使 用 SQL 数据 库 来 执行 搜索 操 
作 。 当 然 它 至 少 在 一 定 程 度 上 没什么 问题 。 然 而 ， 当 你 越 钻 越 深 ， 就 会 看 到 这 种 方法 的 局 限 ， 如 
缺乏 扩展 性 不够 灵活 、 缺 乏 语 言 分析 ( 当然 SQL 数据 库 的 全 文 检索 对 此 有 所 作为 ) 等 .于 是 Apache 
Lucene ( http://lucene.apache.org ) 出 现 了 , 它 的 目标 是 提供 一 个 全 文 检索 的 功能 库 。 它 非常 快速 ， 
可 扩展 ， 并 提供 不 同 语言 的 分 析 能 
































1.1.1 Lucene 词 汇 表 和 架构 
深入 介绍 分 析 处 理 的 细节 之 前 ， 我 们 先 介 绍 一 下 Apache Lucene 的 词汇 表 和 整体 架构 ， 下 面 
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是 这 个 库 的 基本 概念 。 


口 文档 (document ): 索引 和 搜索 时 使 用 的 主要 数据 载体 , 包含 一 个 或 多 个 存 有 数据 的 字段 。 
口 字段 (field ): 文档 的 一 部 分 ， 包 含 名 称 和 值 两 部 分 。 

口 词 (term ): 一 个 搜索 单元 ， 表 示 文 本 中 的 一 个 词 。 

口 标记 (token ): 表示 在 字段 文本 中 出 现 的 词 ， 由 这 个 词 的 文本 、 开 始 和 结束 偏 移 量 以 及 类 
型 组 成 。 


Apache Lucene 将 所 有 信息 写 到 一 个 称 为 倒 排 索引 ( inverted index ) 的 结构 中 。 不同 于 关系 型 
数据 库 中 表 的 处 理 方式 , 倒 排 索引 建立 索引 中 词 和 文档 之 间 的 映射 。 你 可 以 把 倒 排 索引 看 成 这 样 
一 种 数据 结构 , 其 中 的 数据 是 面向 词 而 不 是 面向 文档 的 。 来 看 一 个 简单 的 例子 。 我 们 有 一 些 文档 ， 
只 有 它们 的 标题 字段 需要 被 索引 ， 它 们 看 起 来 如 下 所 示 : 
































口 Elasticsearch Server 1.0 (document 1); 
口 Mastering Elasticsearch (document 2); 
口 Apache Solr 4 Cookbook (document 3)。 


那么 ， 简 化 版 的 索引 可 以 看 成 是 这 样 的 : 








词 计 数 文 档 
1.0 1 <1> 
4 L <3> 
Apache 1 <3> 
Cookbook 1 <3> 
Elasticsearch 2 <1>,<2> 
Mastering 1 <2> 
Server 1 <1> 
Solr 1 <3> 





每 一 个 词 指向 包含 它 的 文档 编号 。 这 样 就 可 以 执行 一 种 非常 高 效 且 快速 的 搜索 ， 比 如 基于 词 
的 查询 。 此 外 ， 每 个 词 有 一 个 计数 ， 告 诉 Lucene 该 词 出 现 的 频率 。 


当然 ，Lucene 实 际 创建 的 索引 要 比 这 个 复杂 得 多 ,也 先进 得 多 , 它 创建 的 额外 文件 包含 了 词 
向 量 (term vector )、 文 档 值 ( doc value ) 等 信息 。 然 而 ， 到 现在 为 止 ， 你 需要 知道 的 是 数据 怎么 
组 织 ， 而 不 是 具体 怎么 存储 。 

每 个 索引 分 为 多 个 “ 写 一 次 ， 读 多 次 ”( write once and read many time ) 的 段 (segment )。 建 
立 索 引 时 , 一 个 段 写 人 磁盘 后 就 不 能 再 更 新 。 因 此 , 被 删除 文档 的 信息 存储 在 一 个 单独 的 文件 中 ， 
但 该 段 自 身 不 被 更 新 。 

然而 ， 多 个 段 可 以 通过 段 合 并 ( segments merge ) 合并 在 一 起 。 当 强制 段 合 并 或 者 Lucene 决 
定 合并 时 ， 这 些小 段 就 会 由 Lucene 合 并 成 更 大 的 一 些 段 。 合 并 需要 IO。 然 而 一 些 信息 需要 清除 ， 
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因为 在 合并 时 ， 不 再 需要 的 信息 将 被 删除 ( 例如 ， 被 删除 的 文档 )。 除 此 之 外 ， 检 索 大 段 比 检索 
存 有 相同 数据 的 多 个 小 段 速度 更 快 。 这 是 因为 在 一 般 情况 下 , 搜索 只 需 将 查询 词 与 那些 被 编 入 索 
引 的 词 相 匹 配 。 通 过 多 个 小 段 寻 找 和 合并 结果 ， 显 然 会 比 让 一 个 大 段 直接 提供 结果 慢 得 多 。 








1.1.2 输入 数据 分 析 


当然 ,问题 是 ,传人 文档 中 的 数据 怎样 转化 成 倒 排 索引 , 查询 文本 怎样 变 成 可 被 搜索 的 词 ? 
这 个 数据 转化 的 过 程 被 称 为 分 析 。 你 可 能 希望 某 些 字段 经 语言 分 析 带 处 理 , 使 得 car 和 cars 在 索引 
中 被 视 为 同一 个 。 男 外 ， 你 可 能 希望 男 一 些 字段 只 用 空格 或 者 小 写 划 分 。 


分 析 的 工作 由 分 析 器 完成 , 它 由 一 个 分 词 器 ( tokenizer ) 和 者 个 或 多 个 标记 过 滤器 ( token filter ) 
组 成 ， 也 可 以 有 零 个 或 多 个 字符 映射 器 〈character mapper )。 


Lucene 中 的 分 词 器 把 文本 分 割 成 多 个 标记 ,基本 就 是 词 加 上 一 些 额外 信息 ， 比 如 该 词 在 原始 
文本 中 的 位 置 和 长 度 。 分 词 器 的 处 理 结果 称 为 标记 流 (token stream )， 它 是 一 个 接 一 个 的 标记 ， 
准备 被 过 滤器 处 理 。 


除了 分 词 希 ，Lucene 分 析 需 包含 零 个 或 多 个 标记 过 滤器 ,用 来 处 理 标记 流 中 的 标记 。 下 面 是 
一 些 过 滤 带 的 例子 。 


口 小 写 过 滤器 (lowercase filter ): 把 所 有 的 标记 变 成 小 写 。 
口 同义词 过 滤器 ( synonyms filter ): 基于 基本 的 同义词 规则 ， 把 一 个 标记 换 成 男 一 个 同 义 的 
标记 。 
口 多 语言 词 干 提取 过 滤器 (multiple language stemming filter ): 减少 标记 (实际 上 是 标记 中 
的 文本 部 分 )， 得 到 词根 或 者 基本 形式 ， 即 词 干 。 

过 滤器 是 一 个 接 一 个 处 理 的 .所 以 我 们 通过 使 用 多 个 过 滤器 ,几乎 可 以 达到 无 限 的 分 析 可 能 性 。 

最 后 ,字符 映射 器 对 未 经 分 析 的 文本 起 作用 ,它们 在 分 词 器 之 前 工作 。 因 此 , 我们 可 以 很 容 
易 地 从 文本 的 整体 部 分 去 除 HTML 标签 而 无 需 担心 它们 被 标记 。 

索引 和 查询 

我 们 可 能 想 知 道 当 使 用 Lucene 和 所 有 建立 在 它 之 上 的 软件 时 , 上 述 所 有 功能 对 索引 和 查询 的 
影响 。 建 立 索 引 时 ，Lucene 会 使 用 你 选择 的 分 析 器 来 处 理 你 的 文档 内 容 。 当 然 , 不同 的 字段 可 以 
使 用 不 同 的 分 析 器 ,所 以 文档 的 名 称 字段 可 以 和 汇总 字段 做 不 同 的 分 析 。 如 果 我 们 愿意 ,也 可 以 
不 分 析 字 段 。 

查询 时 ， 查 询 将 被 分 析 。 但 是 ， 你 也 可 以 选择 不 分 析 。 记 住 这 一 点 很 关键 ， 因 为 一 些 
Elasticsearch 查 询 被 分 析 ， 一 些 则 不 然 。 例 如 ， 前 级 和 词 查 询 不 被 分 析 ， 匹 配 查 询 则 被 分 析 。 
可 以 在 被 分 析 查 询 和 不 被 分 析 查 询 两 者 中 选择 非常 有 用 。 有 时 ， 你 可 能 希望 查询 一 个 未 经 分 析 
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的 字段 ， 而 有 时 你 则 希望 有 全 文 搜索 的 分 析 。 如 果 我 们 查询 LightRed 这 个 词 ， 标 准 分 析 器 分 析 
这 个 查询 后 ,会 去 查询 light 和 red; 如 果 我 们 使 用 不 经 分 析 的 查询 类 型 , 则 会 明确 地 查询 LightRed 


这 个 词 。 


关于 索引 和 查询 分 析 ， 你 应 该 记 住 的 是 ,索引 应 该 和 查询 词 匹配 。 如 果 它 们 不 匹配 ，Lucene 
不 会 返回 所 需 文档 。 比 如 ,你 在 建立 索引 时 使 用 了 词 干 提取 和 小 写 , 那 你 应 该 保证 查询 中 的 词 也 
必须 是 词 干 和 小 写 , 否则 你 的 查询 不 会 返回 任何 结果 。 重 要 的 是 在 索引 和 查询 分 析 时 ，, 对 所 用 标 
记过 滤器 保持 相同 的 顺序 ， 这 样 被 分 析出 来 的 词 是 一 样 的 。 






































1.1.3 ”评分 和 查询 相关 性 


另外 还 有 件 现在 还 没 提 到 的 事 ， 就 是 评分 (scoring )。 什 么 是 文档 的 得 分 ? 得 分 是 根据 文档 
和 查询 的 匹配 度 用 计 分 公式 计算 的 结果 。 默 认 情 况 下 ，Apache Lucene 使 用 TF/IDF (term 
frequency/inverse document frequency， 词 频 /逆向 文档 频率 ) 评分 机 制 ， 这 是 一 种 计算 文档 在 我 们 
查询 上 下 文中 相关 度 的 算法 。 当 然 ， 它 不 是 唯一 可 用 的 算法 ，2.2 节 将 介绍 其 他 算法 。 





























， 如 果 你 想 阅 读 更 多 关于 Apache Lucene TF/IDF 评 分 公式 的 内 容 ， 请 访问 Apache 
Lucene Javadocs 中 的 TFIDFSimilarity 类 , 网址: http://lucene.apache.org/core/4 6 0/ 
core/org/apache/lucene/search/similarities/TFIDF Similarity.html 。 





请 记 住 , Elasticsearch 和 Lucene 计 算 的 分 数值 越 高 , 意味 着 文档 越 相关 。 一 些 参数 ( 比如 boost )、 
不 同 的 查询 类 型 ( 3.3 节 将 讨论 这 些 查询 类 型 )、 不 同 的 评分 算法 ， 都 会 影响 得 分 的 计算 。 

















如 果 您 想 更 深入 地 了 解 Apache Lucene 评 分 是 如 何 工 作 的 、 默 认 算 法 是 什么 、 
~ 分 数 是 如 何 计算 的 ， 请 参阅 我 们 的 书 Mastering ElasticSearch，Packt 出 版 。 


1.2 Elasticsearch 基础 


Elasticsearch 是 由 Shay Banon 发 起 的 一 个 开源 搜索 服务 器 项 目 ，2010 年 2 月 发 布 。 迄 今 ， 该 项 
目 已 发 展 成 为 搜索 和 数据 分 析 解 决 方案 领域 的 主要 一 员 , 广泛 应 用 于 声名 卓著 或 鲜 为 人 知 的 搜索 
应 用 程序 。 此 外 ， 由 于 其 分 布 式 性 质 和 实时 功能 ， 许 多 人 把 它 作 为 文档 数据 库 。 











1.2.1 数据 架构 的 主要 概念 


让 我 们 过 一 遍 Elasticsearch 的 基本 概念 。 如 果 你 已 经 熟悉 Elasticsearch 架 构 ， 可 以 跳 过 本 节 。 
如 果 你 不 熟悉 这 种 架构 ， 请 考虑 阅读 本 节 。 我 们 将 提 到 本 书 其 余部 分 会 用 到 的 关键 字 。 
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1. 索引 


索引 (index ) 是 Elasticsearch 对 逻辑 数据 的 逻辑 存储 ， 所 以 它 可 以 分 为 更 小 的 部 分 。 你 可 以 把 
索引 看 成 关系 型 数据 库 的 表 。 然 而 ， 索 引 的 结构 是 为 快速 有 效 的 全 文 索 引 准 备 的 ， 特 别 是 它 不 存 
储 原始 值 。 如 果 你 知道 MongoDB ， 可 以 把 Elasticsearch 的 索引 看 成 MongoDB 里 的 一 个 集合 。 如 果 
你 熟悉 CouchDB ， 可 以 把 索引 看 成 CouchDB 数 据 库 索引 。Elasticsearch 可 以 把 索引 存放 在 一 台 机 器 
或 者 分 散在 多 台 服 务 器 上 , 每 个 索引 有 一 或 多 个 分 片 ( shard ), 每 个 分 片 可 以 有 多 个 副本 (replica )。 


2. 文档 


存储 在 Elasticsearch 中 的 主要 实体 叫 文档 ( document )。 用 关系 型 数据 库 来 类 比 的 话 ， 一 个 文 
档 相 当 于 数据 库 表 中 的 一 行 记录 。 当 比较 Elasticsearch 中 的 文档 和 MongoDB 中 的 文档 ， 你 会 发 现 
两 者 都 可 以 有 不 同 的 结构 ， 但 Elasticsearch 的 文档 中 ， 相 同 字段 必须 有 相同 类 型 。 这 意味 着 ， 所 
有 人 包含 title 字 上段 的 文档 ，title 字 段 类 型 都 必须 一 样 ， 比 如 string。 


文档 由 多 个 字段 组 成 ， 每 个 字段 可 能 多 次 出 现在 一 个 文档 里 ， 这 样 的 字段 叫 多 值 字段 
( multivalued )。 每 个 字段 有 类 型 ， 如 文本 、 数 值 、 日 期 等 。 字 段 类 型 也 可 以 是 复杂 类 型 ， 一 个 字 
段 包 含 其 他 子 文档 或 者 数组 。 字 段 类 型 在 Elasticsearch 中 很 重要 ， 因 为 它 给 出 了 各 种 操作 ( 如 分 
析 或 排序 ) 如 何 被 执行 的 信息 。 幸 好 ， 这 可 以 自动 确定 ， 然 而 ， 我 们 仍然 建议 使 用 映射 。 与 关系 
型 数据 库 不 同 , 文档 不 需要 有 固定 的 结构 , 每 个 文档 可 以 有 不 同 的 字段 , 此 外 , 在 程序 开发 期 间 ， 
不 必 确 定 有 哪些 字段 ,当然 , 可 以 用 模式 强行 规定 文档 结构 。 从 客户 端的 角度 看 , 文档 是 一 个 JSON 
对 象 (关于 JSON 格 式 的 更 多 内 容 ， 参 见 http://en.wikipedia.org/wikiWJSON )。 每 个 文档 存储 在 一 个 
索引 中 并 有 一 个 Elasticsearch 自动 生成 的 唯一 标识 符 和 文档 类 型 。 文 档 需要 有 对 应 文档 类 型 的 唯 
一 标识 符 ， 这 意味 着 在 一 个 索引 中 ， 两 个 不 同类 型 的 文档 可 以 有 相同 的 唯一 标识 符 。 


3. 文档 类 型 


在 Elasticsearcn 中 ， 一 个 索引 对 象 可 以 存储 很 多 不 同 用 途 的 对 象 。 例 如 ， 一 个 博客 应 用 程序 
可 以 保存 文章 和 评论 。 文档 类 型 让 我 们 轻易 地 区 分 单个 索引 中 的 不 同 对 象 。 每 个 文档 可 以 有 不 同 
的 结构 , 但 在 实际 部 署 中 , 将 文件 按 类 型 区 分 对 数据 操作 有 很 大 帮助 。 当然, 需要 记 住 一 个 限制 ， 
不 同 的 文档 类 型 不 能 为 相同 的 属性 设置 不 同 的 类 型 。 例 如 , 在 同一 索引 中 的 所 有 文档 类 型 中 , 一 
个 叫 title 的 字段 必须 具有 相同 的 类 型 。 


4. 映射 


在 有 关 全 文 搜索 基础 知识 部 分 , 我 们 提 到 了 分 析 的 过 程 : 为 建 索 引 和 搜索 准备 输入 文本 。 文 
档 中 的 每 个 字段 都 必须 根据 不 同类 型 做 相应 的 分 析 。 举 例 来 说 , 对 数值 字段 和 从 网 页 抓 取 的 文本 
字段 有 不 同 的 分 析 ， 比 如 前 者 的 数字 不 应 该 按 字 母 顺序 排序 ， 后 者 的 第 一 步 是 忽略 HTML 标 签 ， 
因为 它们 是 无 用 的 信息 噪音 。Elasticsearch 在 映射 中 存储 有 关 字 段 的 信息 。 每 一 个 文档 类 型 都 有 
自己 的 映射 ， 即 使 我 们 没有 明确 定义 。 
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1.2.2 ”Elasticsearch 主 要 概念 


现在 ， 我 们 已 经 知道 Elasticsearch 把 数据 存储 在 一 个 或 多 个 索引 上 ， 每 个 索引 包含 各 种 类 型 
的 文档 。 我 们 也 知道 了 每 个 文档 有 很 多 字段 ， 映 射 定 义 了 Elasticsearch 如 何 对 待 这 些 字段 。 但 还 
有 更 多 ， 从 一 开始 ，Elasticsearch 就 被 设计 为 能 处 理 数 以 亿 计 的 文档 和 每 秒 数 以 百 计 的 搜索 请 求 
的 分 布 式 解决 方案 。 这 归功 于 几 个 重要 的 概念 ， 我 们 现在 将 更 详细 地 描述 。 


1. 节点 和 集群 


Elasticsearch 可 以 作为 一 个 独立 的 单个 搜索 服务 器 。 不 过 ， 为 了 能 够 处 理 大 型 数据 集 ， 实 现 
容错 和 高 可 用 性 ，Elasticsearch 可 以 运行 在 许多 互相 合作 的 服务 器 上 。 这 些 服务 器 称 为 集群 
(cluster )， 形 成 集群 的 每 个 服务 需 称 为 节点 (node )。 


2. 分 片 


当 有 大 量 的 文档 时 ， 由 于 内 存 的 限制 、 硬 盘 能 力 、 处 理 能 力 不 足 、 无 法 足够 快 地 响应 客户 端 
请 求 等 ， 一 个 节点 可 能 不 够 。 在 这 种 情况 下 ， 数 据 可 以 分 为 较 小 的 称 为 分 片 (shard ) 的 部 分 (其 
中 每 个 分 片 都 是 一 个 独立 的 Apache Lucene 索 引 )。 每 个 分 片 可 以 放 在 不 同 的 服务 器 上 ， 因 此 ， 数 
据 可 以 在 集群 的 节点 中 传播 。 当 你 查询 的 索引 分 布 在 多 个 分 片上 时 ，Elasticsearch 会 把 查询 发 送 
给 每 个 相关 的 分 片 ， 并 将 结果 合并 在 一 起 ， 而 应 用 程序 并 不 知道 分 片 的 存在 。 此 外 ， 多 个 分 片 可 
以 加 快 索引 。 

3. 副本 

为 了 提高 查询 吞吐 量 或 实现 高 可 用 性 ， 可 以 使 用 分 片 副本 。 副 本 (replica ) 只 是 一 个 分 片 的 
精确 复制 ， 每 个 分 片 可 以 有 零 个 或 多 个 副本 。 换 句 话 说，Elasticsearch 可 以 有 许多 相同 的 分 片 ， 
其 中 之 一 被 自动 选择 去 更 改 索引 操作 。 这 种 特殊 的 分 片 称 为 主 分 片 (primary shard )， 其 余 称 为 副 
本 分 片 (ieplica shard )。 在 主 分 片 丢 失 时 ， 例 如 该 分 片 数据 所 在 服务 器 不 可 用 ， 集 群 将 副本 提升 
为 新 的 主 分 片 。 

4. 时 光 之 门 


Elasticsearch 处 理 许多 节点 。 集 群 的 状态 由 时 光 之 门 控制 。 默 认 情 况 下 ， 每 个 节点 都 在 本 地 
存储 这 些 信息 ， 并 且 在 节点 中 同步 。 我 们 将 在 7.2 节 详细 讨论 时 光 之 门 模块 。 



























































1.2.3 索引 建立 和 搜索 


你 可 能 会 问 实 际 上 如 何 把 所 有 的 索引 、 分 片 和 副本 绑 在 单个 环境 里 。 理 论 上 ， 当 你 必须 知道 
你 的 文档 在 哪 ， 哪 人 服务器 、 哪 个 分 片上 时 ， 从 集群 获取 数据 非常 困难 。 更 为 困难 的 是 当 一 个 搜 
索 需 要 返回 的 文档 分 布 在 集群 中 不 同 节点 的 不 同 分 片上 时 。 这 确实 是 一 个 复杂 的 问题 , 好 在 我 们 
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不 需要 关心 ， 它 由 Elasticsearch 本 身 自动 处 理 。 来 看 看 下 图 : 必 二 





发 送 一 个 新 的 文档 给 集群 时 , 你 指定 一 个 目标 索引 并 发 送 给 它 的 任意 一 个 节点 。 这 个 节点 知 
道 目 标 索 引 有 多 少 分 片 ， 并 且 能 够 确定 哪个 分 片 应 该 用 来 存储 你 的 文档 。 可 以 更 改 Elasticsearch 
的 这 个 行为 。2.6.3 节 将 对 此 进行 讨论 。 现 在 你 需要 记 住 的 重要 信息 是 ，Elasticsearch 使 用 文档 的 
唯一 标识 符 来 计算 文档 应 该 被 放 到 哪个 分 片 中 。 索引 请 求 发 送 到 一 个 节点 后 ,该 节点 会 转发 文档 
到 持 有 相关 分 片 的 目标 节点 中 。 


现在 来 看 看 关于 执行 搜索 请 求 的 图 : 
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尝试 用 文档 标识 符 来 获取 文档 时 , 发 送 查 询 到 一 个 节点 , 该 节点 使 用 同样 的 路 由 算法 来 决定 
持 有 文档 的 节点 和 分 片 ， 然 后 转发 查询 ， 获 取 结 果 ,， 并 把 结果 发 送 给 你 。 另 一 方面 ,查询 过 程 更 
为 复杂 。 除 非 使 用 了 路 由 ,查询 将 直接 转发 到 单个 分 片 ， 否则, 收 到 查询 请 求 的 节点 会 把 查询 转 
发 给 保存 了 属于 给 定 索引 的 分 片 的 所 有 节点 ,并 要 求 与 查询 匹配 的 文档 的 最 少 信息 ( 默认 情况 下 
是 标识 符 和 得 分 )。 这 个 过 程 称 为 发 散 阶 段 (scatter phase )。 收 到 这 些 信息 后 , 该 聚合 节点 ( 收 到 
客户 端 请 求 的 节点 ) 对 结果 排序 ， 并 发 送 第 2 个 请 求 来 获取 结果 列表 所 需 的 文档 ( 除了 标识 符 和 
得 分 以 外 的 所 有 信息 )。 这 个 阶段 称 为 收集 阶段 ( gather phase )。 这 个 阶段 执行 完毕 后 ,结果 返回 
到 客户 端 。 

现在 问题 来 了 , 在 前 面 描述 的 过 程 中 , 副本 扮演 了 什么 角色 呢 ? 在 建立 索引 时 ,副本 只 作为 
额外 的 位 置 来 存储 数据 。 当 执行 查询 时 ， 默 认 情况 下 ，Elasticsearch 会 尽量 平衡 分 片 和 它 的 副本 
之 间 的 负载 ， 使 它们 承受 均衡 的 压力 。 此 外 ， 记 住 我 们 可 以 改变 该 行为 。3.2 节 将 对 此 进行 讨论 。 












































1.3 安装 并 配置 集群 
有 几 个 安装 Elasticsearch 所 需 的 步 又 ， 接 下 来 几 节 将 详细 说 明 。 


1.3.1 安装 Java 


为 了 建立 Elasticsearch ， 第 一 步 是 确保 正确 安装 Java SE 环 境 。Elasticsearch 需 要 Java 6 或 更 高 
版 本 。 你 可 以 从 http://www.oracle.com/technetwork/java/javase/downloads/index.html 下 和 载 。 如 果 你 
想 ， 也 可 以 使 用 OpenJDK ( http://openjdk.java.net/ )。 当 然 你 可 以 使 用 Java 6， 但 它 已 经 没有 补丁 
的 支持 ， 所 以 建议 安装 Java 7。 





1.3.2 ”安装 Elasticsearch 


从 http:/www.elasticsearch.org/download/ 下 载 ， 解 压 。 选 择 最 新 的 稳定 版 本 ， 安 装 完毕 。 
写 这 本 书 时 ， 我 们 用 的 是 Elasticsearch 1.0.0 GA。 这 意味 着 ， 我 们 已 经 跳 过 


一 些 被 标记 为 过 时 ( deprecated ) 的 属性 的 描述 ， 它 们 已 经 或 将 在 未 来 的 
Elasticsearch 版 本 中 被 移 除 。 





与 Elasticsearch 交 互 的 主要 接口 是 基于 HTTP 协 议和 REST 的 。 这 意味 着 你 甚至 可 以 使 用 Web 
浏览 器 来 完成 基本 的 查询 和 请 求 , 但 对 于 更 复杂 的 情况 ,你 需要 额外 的 命令 行 工 具 ， 比 如 cURL。 
如 果 你 使 用 Linux 或 OS X 命 令 , cURL 已 经 可 用 了 。 如果 你 使 用 Windows, 可 以 从 http://curl.haxx.se/ 
download.html 下 载 。 
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1.3.3 在 Linux 上 用 二 进 制 包 安装 Elasticsearch 








装 Elasticsearch 的 另 一 个 方法 是 使 用 提供 的 二 进 制 包 ，RPM 或 DEB ， 视 你 的 Linux 发 行 版 而 
上 5 


安 
定 。 这 些 二 进 制 包 可 以 在 http://www.elasticsearch.org/download/ 找 到 。 


1. 使 用 RPM 包 安装 Elasticsearch 
下 载 RPM 包 后 ， 你 只 需 执 行 如 下 命令 : 





sudo yum elasticsearch-1.0.0.noarch.rpm 


就 这 么 简单 。 如 果 一 切 顺 利 ，Elasticsearch 应 该 安装 好 了 ， 配 置 文 件 应 该 在 /etc/sysconfig/ 
elasticsearch 中 。 如 你 的 操作 系统 基于 红 帽 ， 应 该 可 以 使 用 /etc/init.d/elasticsearch 下 的 init 脚 
本 。 如 果 你 的 操作 系统 是 SUSE Linux ， 可 以 使 用 /bin 下 的 systemctl 文 件 来 启动 和 停止 
Elasticsearch 服 务 。 











2. 使 用 DEB 包 安装 Elasticsearch 
下 载 DEB 包 后 ， 只 需 执 行 如 下 命令 : 
sudo dpkg -i elasticsearch-1.0.0.deb 


就 这 么 简单 。 如 果 一 切 顺利 ，Elasticsearch 应 该 安装 成 功 ， 配 置 文件 存在 /etc/elasticsearch/ 
elasticsearch.yml。/etc/init.d/elasticsearch 下 的 init 脚 本 可 以 用 来 启动 和 停止 Elasticsearch。 此 外 ， 
/etc/default/elasticsearch 下 的 文件 包含 了 环境 设置 。 


1.3.4 ”目录 布局 
现在 ， 到 新 创建 的 目录 中 。 应 该 可 以 看 到 下 面 的 目录 结构 : 











目录 描述 
bin 运行 Elasticsearch 实 例 和 插件 管理 所 需 的 脚本 
config 配置 文件 所 在 的 目录 
lib Elasticsearch 使 用 的 库 











Elasticsearch 启 动 后 ， 会 创建 如 下 目录 ( 如果 目录 不 存在 ): 








目录 描述 

data Elasticsearch 使 用 的 所 有 数据 的 存储 位 置 
logs 关于 事件 和 错误 记录 的 文件 

plugins 存储 所 安装 插件 的 地 方 

work Elasticsearch 使 用 的 临时 文件 
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1.3.5 配置 Elasticsearch 


Elasticsearch 很 容易 和 人 门 ， 这 是 它 越 来 越 流行 的 原因 之 一 ， 当 然 ， 不 是 全 部 原因 。 因 为 已 为 
简单 的 环境 配置 了 合理 的 默认 值 和 自动 设置 ， 我 们 可 以 跳 过 配置 ， 不 需 改 变 我 们 的 配置 文件 中 
的 任意 一 行 而 直接 走 到 下 一 章 。 然 而 ， 为 了 真正 理解 Elasticsearch ， 学 习 一 些 可 用 的 设置 还 是 值 
得 的 。 


现在 ， 来 探讨 Elasticsearch 的 tar.gz 存 档 提 供 的 默认 目录 和 文件 的 布局 。 整 个 配置 位 于 config 
目录 下 ， 可 以 看 到 两 个 文件 : elasticsearch.yml ( 或 elasticsearch.json， 如 果 有 的 话 会 被 使 用 ) 和 
logging.yml。 第 一 个 文件 负责 设置 服务 器 的 默认 配置 值 。 重 要 的 是 ， 因 为 一 些 配置 值 可 以 在 运行 
时 更 改 , 也 可 作为 集群 状态 的 一 部 分 被 保留 ， 所 以 这 个 文件 中 的 值 可 能 不 准确 。 有 两 个 值 不 能 在 


运行 时 更 改 , 分 别 是 cluster .name 和 node .name。 


cluster.name 属 性 保存 集群 的 名 字 ， 不 同 的 集群 用 名 字 来 区 分 ， 配 置 成 相同 集群 名 字 的 各 
个 节点 形成 一 个 集群 。 


node .name 是 实例 (该 节点 ) 的 名 字 ， 可 以 不 定义 此 参数 ， 这 时 ，Elasticsearch 自 动 选择 一 
个 唯一 的 名 称 。 注 意 ， 此 名 称 是 每 次 启动 时 选择 的 , 所 以 在 每 次 重启 后 名 称 可 能 都 不 一 样 。 在 很 
长 的 时 间 区 间或 者 重启 过 后 ， 需 要 在 API 中 提 及 具体 实例 名 称 ， 或 者 用 监控 工具 查看 节点 ， 自 定 
义 一 个 名 称 还 是 很 有 帮助 的 。 给 你 的 节点 想 一 个 描述 性 的 名 字 吧 。 


文件 中 的 其 他 参数 有 很 好 的 注释 , 所 以 建议 你 看 看 。 不 要 担心 不 理解 那些 解释 。 希望 在 读 完 
下 面 几 章 后 ， 一 切 都 变 得 清晰 起 来 。 































































































记 住 ， 大 多 数 在 elasticsearch.yml 文 件 中 设置 的 参数 都 可 以 用 Elasticsearch 
> RESTAPI 来 覆盖 。8.8 节 将 介绍 这 些 API。 
第 2 个 文件 (logging.yml ) 定义 了 多 少 信息 写 人 系统 日 志 ， 定 义 了 日 志文 件 ， 并 定期 创建 新 
文件 。 只 有 在 调整 监控 、 备 份 方案 或 系统 调试 时 , 才 需 要 修改 。 然而 如 果 想 有 一 份 更 详细 的 日 志 ， 
就 需要 相应 调整 。 


我 们 保留 这 些 配置 文件 不 动 。 配 置 的 一 个 重要 部 分 是 调整 你 的 操作 系统 。 在 建立 索引 时 , 尤 
其 是 有 很 多 分 片 和 副本 的 情况 下 ，Elasticsearch 将 创建 很 多 文件 。 所 以 ， 系 统 不 能 限制 打开 的 文 
件 描述 符 小 于 32 000 个 。 在 Linux 上 ,一般 在 /etc/security/limits.conf 中 修改 ,当前 的 值 可 以 用 ulimit 
命令 来 查看 。 如 果 达 到 极限 ，Elasticsearch 将 无 法 创建 新 的 文件 ， 所 以 合并 会 失败 ， 索 引 会 失败 ， 
新 的 索引 无 法 创建 。 


下 一 组 设 定 关联 到 单个 Elasticsearch 实 例 的 Java 虚 拟 机 (JVM ) 的 堆 内 存 限制 。 对 小 型 部 署 来 
说 ， 默 认 的 内 存 限 制 ( 1024 M ) 就 足够 了 ， 但 对 于 大 型 项 目 不 够 。 如 果 你 在 日 志文 件 中 发 现 
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outoOfMemoryErzor 异 常 的 条 目 , 把 ES_HEAP_SIZE 变 量 设置 到 大 于 1024。 当 选择 分 配给 JVM 的 
合适 内 存 大 小 时 ， 记 住 ， 通常 不 应 该 分 配 超过 50% 的 系统 总 内 存 。 不 过 ， 所 有 的 规则 都 有 例外 ， 
稍 后 将 更 详细 地 讨论 ， 但 你 应 该 经 常 监控 JVM 堆 的 使 用 量 ， 需 要 时 调整 。 








1.3.6 ”运行 Elasticsearch 


运行 刚刚 下 载 并 解压 的 ZIP 包 ， 转 到 bin 目 录 ， 然 后 根据 不 同 的 操作 系统 ， 运 行 如 下 命令 。 








口 Linux 或 OS X: ./elasticsearch。 
D Windows: elasticsearch.bat, 


恭喜 你 ! 现在 把 Elasticsearch 启 动 并 运行 起 来 了 。 它 在 工作 时 一 般 使 用 2 个 端口 号 : 第 1 个 是 
使 用 HTTP 协议 与 REST API 通 信 的 端口 ， 第 2 个 是 传输 模块 ( transport module )， 是 用 来 在 集群 内 
以 及 Java 客 户 端 和 集群 之 间 通 信 的 端口 。HTTP API 的 默认 端口 号 是 9200, 所 以 可 以 在 浏览 器 中 打 
开 http://127.0.0.1:9200 来 检查 搜索 是 否 就 绪 ， 浏 览 器 将 显示 类 似 下 面 这 样 的 代码 片段 : 


{ 















































"status™ % 200;, 
"name" : "es_server", 
"version" : { 
nimier" 3 "0 0 
"build hash" : "a46900e9c72c0a623d71b54016357d5f94c8ea32", 
"build timestamp" : "2014-02-12T16:18:342"， 
"build snapshot" : false, 
"lucene version" : "4.6" 
jy 
"tagline" : "You Know, for Search" 


} 


输出 是 JSON 结 构 的 。 如 果 你 还 不 熟悉 JSON ( JavaScript Object Notation )， 请 花 几 分 钟 阅读 
http://en.wikipedia.org/wikWJSON 上 的 这 篇 文章 。 


Elasticsearch 很 聪明 。 如 果 默 认 端 口 不 可 用 ,引擎 将 绑 定 到 下 一 个 可 用 端口 ， 
你 可 以 在 启动 时 的 控制 台 上 找到 如 下 相关 信息 : 


[2013-11-16 11:56:12,101] [INFO ] [http] [Red Lotus] 


bound address {inet[/0:0:0:0:0:0:0:0%0:9200]}, 
~ 


publish address {inet[/192.168.1.101:9200]} 


注意 [http] 的 片段 。Elasticsearch 使 用 了 一 些 端 口 完成 各 种 任务 。 我 们 所 使 
用 的 接口 是 由 HTTP 模 块 处 理 的 。 








现在 ,将 使 用 cURL 程序 。 例 如 ， 要 检查 集群 健康 度 ， 会 使 用 以 下 命令 : 


Curl -XGET http://127.0.0.1:9200/_cluster/health?pretty 
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参数 -X 是 一 个 请 求 方法 ， 默 认 值 是 cgT (所 以 在 上 面 的 例子 中 ， 可 以 忽略 此 参数 )。 和 暂时 不 
要 担心 GET 这 个 值 ， 本 章 的 后 面 将 更 详细 地 描述 它 。 


作为 一 个 标准 ，API 返 回 的 JSON 对 象 信息 里 ， 换 行 符 是 被 省 略 的 ， 在 请 求 中 加 上 pretty 参 
数 是 强制 Elasticsearch 在 响应 中 加 上 换行 符 ， 使 之 更 可 读 。 你 可 以 试 着 去 掉 pretty 参 数 运行 上 面 
的 请 求 ， 看 看 有 什么 不 同 。 


Elasticsearch 在 中 小 型 应 用 程序 中 非常 有 用 ， 但 它 的 初衷 是 建成 大 型 集群 。 所 以 ， 现 在 来 建 
立 由 两 个 节点 组 成 的 大 的 集群 。 解 压 Elasticsearch 到 另 一 个 目录 ， 然 后 运行 第 二 个 实例 。 我 们 会 
在 日 志 中 看 到 如 下 内 容 : 


[2013-11-16 11:55:16,767] [INFO ] [cluster.service] 

[Stane, Obadiah] detected master [Martha Johansson] 
[vswsFRWTSjOa_fy7uPuOMA] 

[inet[/192.168.1.19:9300]], added { [Martha Johansson] 
[vswsFRWTSjOa_fy7uPuOMA] 

[inet [/192.168.1.19:9300]],}, reason: zen-disco-receive(from master 
[[Martha Johansson] [vswsFRWTSjOa fy7uPuOMA] 

[inet [/192.168.1.19:9300]]1]) 


这 意味 着 我 们 的 第 二 个 实例 ( 名 字 为 stane, obadian ) 检测 到 了 之 前 运行 的 实例 ( 名 字 为 
Martha Johansson )。 这 里 ，Elasticsearch 自 动 形 成 了 一 个 新 的 双 节 点 集群 。 



























































请 注意 , 在 某 些 系统 上 , 防火 墙 软件 默认 自动 打开 , 可 能 导致 节点 无 法 找到 
其 他 节点 。 


1.3.7 关 掉 Elasticsearch 
尽管 我 们 期 望 集群 或 节点 完美 地 一 直 运 行 下 去 ,但 仍 可 能 需要 正确 地 重启 或 者 关闭 ， 比 如 ， 
为 了 维护 。 下 面 是 三 种 可 以 关闭 Elasticsearch 的 方法 。 


口 如 果 节 点 是 连接 到 控制 台 ， 按 下 Ctrl+C。 

口 第 二 种 选择 是 通过 发 送 TERM 信 号 杀 掉 服务 器 进程 〈 参 考 Linux 上 的 ki11 命 令 和 Windows 
上 的 任务 管理 器 )。 

口 第 三 种 方法 是 使 用 REST API。 

现在 着 重 介绍 第 三 种 方法 。 可 以 执行 以 下 命令 来 关 掉 整个 集群 : 

Curl -XPOST http://localhost:9200/ cluster/nodes/_shutdown 


为 关闭 单一 节点 ， 假 如 节点 标识 符 是 BlrmMvBdsKiceyYGsiHijdg， 可 以 执行 下 面 的 命令 : 
































curl -XPOST 
http://localhost:9200/_cluster/nodes/BlrmMvBdSKiCeYGsiHijdg/_shutdown 
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节点 的 标识 符 可 以 在 日 志 中 看 到 ， 或 者 使 用 _cluster/nodes API, 命令 如 下 : 





Curl -XGET http://localhost:9200/_ cluster/nodes/ 


1.3.8 ”Elasticsearch 作 为 系统 服务 运行 
Elasticsearch 1.0 可 以 作为 服务 运行 在 基于 Linux 的 系统 和 基于 Windows 的 系统 上 。 


1. 在 Linux 上 运行 系统 服务 

如 果 是 从 提供 的 二 进 制 包 安 装 的 Elasticsearch， 你 已 经 完成 了 ,什么 都 不 用 担心 。 但 是 ， 如 
果 你 刚刚 下 载 归 档 文件 ， 解 压 到 所 选择 的 目录 ， 就 需要 做 一 些 额 外 的 工作 。 为 了 将 Elasticsearch 
安装 成 一 个 Linux 系 统 服 务 ， 将 使 用 Elasticsearch service wrapper， 你 可 以 从 https://github.com/ 


elasticsearch/elasticsearch-servicewrapper 下 载 。 





来 看 看 使 用 Elasticsearch service wrapper 建 立 Elasticsearch Linux 服 务 的 步骤 。 首 先 ， 执 行 以 下 
命令 来 下 载 这 个 wrapper: 


curl -L http://github.com/elasticsearch/elasticsearch- 
servicewrapper/tarball/master | tar -xz 


假设 Elasticsearch 已 经 安装 在 /usr/local/share/elasticsearch 下 ， 执 行 如 下 命令 来 移动 所 需 的 
wrapper 文 件 : 

sudo mv *servicewrapper*/service/usr/local/share/elasticsearch/bin/ 

执行 如 下 命令 来 移 除 剩余 的 文件 

rm -RE *servicewrapper* 

最 后 ， 通 过 执行 install 命 令 来 安装 服务 : 

sudo /usr/local/share/elasticsearch/bin/service/elasticsearch install 

在 这 之 后 ， 需 要 创建 一 个 符号 链接 指 向 /usr/local/bin/rcelasticsearch 下 的 


/usr/local/share/elasticsearch/bin/service/elasticsearch 脚 本 。 可 通过 运行 如 下 命令 来 实现 : 


sudo ln -s 'readlink -f 
/usr/local/share/elasticsearch/bin/service/elasticsearch' 
/usr/local/bin/rcelasticsearch 


就 这 样 。 如 果 你 想 启动 Elasticsearch， 执 行 如 下 命令 : 





/etc/init.d/elasticsearch start 
2. 在 Windows 上 运行 系统 服务 
在 Windows 下 把 Elasticsearch 安 装 为 系统 服务 非常 容易 , 你 只 需 转 到 Elasticsearch 的 安装 目录 ， 





图 灵 社 区 会 员 打 顺 顺 (lvshun@live.cn) 专 享 尊重 版 权 





14 第 1 章 Elasticsearch 集群 入 门 





到 bin 子 目录 下 ， 执 行 : 

service.bat install 

你 会 被 问 及 操作 权限 ， 人 允许 脚本 运行 ，Elasticsearch 就 被 安装 成 一 个 Windows 服 务 。 
如 果 你 想 看 看 所 有 被 service.bat 脚 本 文件 暴露 出 来 的 命令 ， 在 相同 目录 下 执行 : 


service.bat 


例如 ， 为 了 启动 Elasticsearch ， 可 执行 如 下 命令 : 





I 


service.bat start 


1.4 用 REST API 操作 数据 


Elasticsearch REST API 可 用 于 各 种 任务 。 有 了 它 ， 可 以 管理 索引 ， 更 改 实例 参数 ， 检 查 节 点 
和 群集 状态 ， 索 引 数 据 ， 搜 索 数据 或 者 通过 GET API 检 索 文档 。 但 是 现在 ， 我 们 将 集中 在 API 中 
的 CRUD ( create-retrieve-update-delete ， 增 删改 查 ) 部 分 ， 它 让 我 们 能 像 使 用 NoSQL 数 据 库 一 样 
使 用 Elasticsearch。 

















1.4.1 理解 Elasticsearch 的 RESTful API 


在 一 个 类 REST 的 架构 中 ， 每 个 请 求 都 指向 地 址 路 径 所 表示 的 一 个 具体 对 象 。 如 果 /books/ 是 
一 个 图 书馆 中 图 书 列表 的 引用 ，/books/1 则 引用 了 D 为 1 的 那 本 书 。 注 意 这 些 对 象 可 以 舰 套 ， 
/books/1/chapter/6 表 示 图 书馆 的 第 一 本 书 的 第 6 章 ， 等 等 。 我 们 的 API 调 用 有 个 主题 。 我 们 想 执 行 
的 操作 ( 比如 cET 或 PosT 操 作 ) 怎么 样 ? 请 求 类 型 就 是 用 来 指定 这 个 的 。HTTP 协 议 给 出 了 可 以 
在 API 调 用 中 用 作 动 词 的 一 组 相当 长 的 类 型 。 合 乎 逻辑 的 选择 是 ，GET 用 来 获得 请 求 对 象 的 当前 
状态 ，PosT 来 改变 对 象 的 当前 状态 ，PUT 创 建 一 个 对 象 ， 而 DELETE 销 毁 对 象 ， 另 外 还 有 个 HEAD 
请 求 仅仅 用 来 获取 对 象 的 基础 信息 。 


现在 来 看 看 在 1.3.7 节 中 讨论 的 如 下 操作 例子 ， 一 切 都 应 该 更 容易 理解 。 


口 GET http://localhost:9000/: 这 个 命令 用 来 获取 Elasticsearch 的 基本 信息 。 

口 GET http://localhost:9200/_cluster/state/nodes/: 这 个 命令 获取 集群 中 节点 
的 信息 。 

口 PosT http://localhost:9200/_cluster/nodes/_shutdown: 这 个 命令 向 集群 中 
所 有 节点 发 送 一 个 shutdown 请 求 。 


我 们 现在 至 少 知道 了 REST 的 一 般 概念 。 你 可 以 在 http://en.wikipedia.org/wiki/Representational 
state_transfer 上 阅读 更 多 关于 REST 的 信息 。 现 在, 可 以 继续 学 习 如 何 使 用 Elasticsearch API 来 存储 、 
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读 取 、 修 改 和 删除 数据 。 


1.4.2 ”在 Elasticsearch 中 存储 数据 


我 们 已 经 讨论 过 ， 在 Elasticsearch 中 ， 所 有 的 数据 ， 即 每 个 文档 ， 都 有 定义 好 的 索引 和 类 型 。 
每 个 文档 可 以 包含 一 个 或 多 个 字段 来 保存 数据 。 首 先 展示 如 何 使 用 Elasticsearch 为 一 个 简单 文档 
建立 索引 。 





1.4.3 ”新 建文 档 


现在 ， 尝 试 索引 一 些 文档 。 例 如 ， 为 博客 建立 某 种 内 容 管理 系统 ( CMS )。 文章 (article ) 是 
博客 中 的 一 个 实体 。 


使 用 JSON 标 记 ， 一 个 文档 可 以 如 下 所 示 的 例子 来 表示 : 


{ 
We i 
"title": "New version of Elasticsearch released!", 
"content": "Version 1.0 released today!", 
mriorityr: TO 
"tags": ["announce", "elasticsearch", "release"] 


} 
可 以 看 到 ，JSON 文 档 包 含 一 组 字段 ， 每 个 字段 可 以 有 不 同 的 形式 。 在 以 上 示例 中 ,我 们 有 
数字 (priority)、 文 本 ( title ) 和 字符 串 数组 ( tags )。 以 下 示例 将 展示 其 他 类 型 。 如 本 章 
前 面 所 述 , Elasticsearch 能 猜 出 这 些 类 型 ( 因为 JSON 是 半 类 型 化 的 , 例如 , 数字 没有 放 在 引号 中 )， 
并 自动 定制 这 些 数据 在 其 内 部 结构 中 如 何 存储 。 


当然 ,我 们 希望 为 示例 文档 建立 索引 ， 并 使 其 可 用 于 搜索 。 我 们 将 使 用 一 个 名 为 blog 的 索引 
和 名 为 article 的 类 型 。 为 了 把 示例 文档 以 给 定 类 型 、 标 识 符 为 1 建立 在 索引 中 ， 执 行 以 下 命令 : 
curl -XPUT http://localhost:9200/blog/article/1 -d '{"title": "New version of 


Elasticsearch released!", content": "Version 1.0 released today!", "tags": ["announce", 
"elasticsearch", "release"] }' 


注意 cURL 命令 的 一 个 新 选项 : -g 参 数 。 此 选项 的 值 是 将 作为 请 求 负载 的 文本 ， 也 即 请 求 主 
体 (requestbody )。 这样， 我 们 可 以 发 送 附 加 信息 ， 如 文档 定义 。 同 时 ,注意 唯一 标识 符 (1 ) 是 
放 在 URL， 而 不 是 请 求 主体 中 。 使 用 HTTP PUT 请 求 时 ， 如 果 省 略 此 标识 符 ， 该 请 求 将 返回 以 下 
错误 : 

No handler found for uri [/blog/article/] and method [PUT] 


如 果 一 切 正确 ，Elasticsearch 会 返回 一 个 JSON 响 应 ， 与 如 下 输出 类 似 : 
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的 唯 


递增 


"_index":"blog", 
" type":"article", 
"id" : ni1" 
" version":1 
} 








前 面 的 响应 包含 了 此 次 操作 状态 的 信息 , 并 显示 一 个 新 的 文档 放 在 哪里 , 还 包含 了 有 关 文 档 





一 标识 符 (_iq ) 和 当前 版 本 (_version ) 的 信息 。 版 本 将 由 Elasticsearch 每 次 更 新 时 自动 


标识 符 的 自动 创建 
在 上 面 的 示例 中 ， 我们 自己 指定 了 文档 标识 符 。 然 而 ，Elasticsearch 可 以 自动 生成 它 。 这 似 























乎 很 方便 , 但 只 有 当 该 索引 是 唯一 的 数据 来 源 时 , 才能 这 么 做 。 如 果 使 用 一 个 数据 库 来 存储 数据 ， 
用 Elasticsearch 全 文 搜索 ， 那 数据 同步 将 会 被 阻碍 ， 除 非 在 数据 库 中 也 存储 生成 的 标识 符 。 使 用 
HTTP POST 请 求 类 型 并 且 不 在 URL 中 指定 标识 符 , 就 可 以 生成 一 个 唯一 标识 符 。 例如, 看 下 面 的 


命令 
































curl -XPOST http://localhost:9200/blog/article/ -d '{"title": "New version of 
Elasticsearch released!", "content": "Version 1.0 released today!", "tags": 
["announce", "elasticsearch", "release"] }' 


注意 , 要 使 用 HTTP PosT 方 法 , 而 不 是 前 面 示例 中 的 PUT 方法 。 参考 前 面 关 于 REST 动 词 的 摘 
我 们 想 更 改 列 表 中 的 文档 索引 ， 而 不 是 创建 一 个 新 的 实体 ， 所 以 使 用 PosT 而 不 是 PUT。 服 务 
































器 应 该 返回 类 似 下 面 的 响应 : 


{ 


"1ndex™ 1 “bpLog", 

"_type" : "article", 

"_id" : "XQmdeSe RVamFgRHMqcZQg", 
"_ Version™ 3 1 


} 
注意 加 粗 的 那 一 行 ， 这 是 一 个 Elasticsearch 自 动 生成 的 标识 符 。 


1.4.4 ”检索 文档 


我 们 已 经 将 实例 存储 在 了 文档 中 ， 现 在 尝试 通过 标识 符 检索 。 首 先 执行 以 下 命令 : 
Curl -XGET http://localhost:9200/blog/article/1 


Elasticsearch 将 返回 类 似 下 面 的 响应 : 








{ 
"_index" : "blog", 
" type" : "article", 
i : i 
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" version" : 1, 
"exists" : true, 
"_source" : { 


} 


在 前 面 的 响应 中 ,除了 索引 、 类 型 、 标 识 符 和 版 本 ,还 可 以 看 到 说 明 “ 发 现 文件 存在 ” 


"title": "New version of Elasticsearch released!", 
"content": "Version 1.0 released today!", 
"tags": ["announce", "elasticsearch", "release"] 














(exists 属 性 ) 以 及 此 文档 来 源 (_source 属 性 ) 的 信息 。 如 果 没 有 找到 文档 ， 得 到 的 响应 如 


下 所 示 : 


{ 


"_index" : "blog", 
"_type" : "article", 
m 14d" : "9g999", 
"exists" : false 


} 


因为 没有 找到 文档 ， 当 然 也 就 没有 版 本 或 来 源 的 信息 。 


1.4.5 ”更 新 文档 

更 新 索引 中 的 文档 是 一 项 更 复杂 的 任务 。 在 内 部 ，Elasticsearch 必 须 首先 获取 文档 ， 从 
_source 属 性 获得 数据 ， 删 除 旧 的 文件 ， 更 改 _source 属 性 ， 然后 把 它 作为 新 的 文档 来 索引 。 它 
如 此 复杂 ， 因 为 信息 一 旦 在 Lucene 的 倒 排 索引 中 存储 ， 就 不 能 再 被 更 改 。Elasticsearch 通 过 一 个 






































带 _update 参 数 的 脚本 来 实现 它 。 这 样 就 可 以 做 比 简单 修改 字段 更 加 复杂 的 文档 转换 。 下 面 用 简 


单 的 例子 看 看 的 工作 原理 。 





请 记 住 之 前 建立 的 博客 文章 索引 。 为 了 更 改 其 content 字 段 ， 运 行 以 下 命令 : 


Curl -XPOST http://localhost:9200/blog/article/1/ update -d '{ 
"script": "ctx. source.content = \"new content\"" 


} 


Elasticsearch 将 返回 如 下 啊 应 : 


{" index":"blog"," type":"article"," id":"1"," version":2} 








看 上 去 更 新 操作 执行 成 功 了 。 为 了 确定 ， 我 们 用 它 的 标识 符 检索 一 下 ， 执 行 如 下 命令 : 


Curl -XGET http://localhost:9200/blog/article/1 


Elasticsearch 的 响应 应 该 包含 修改 过 的 content 字 段 ， 事实 的 确 如 此 ， 它 包含 如 下 信息 : 


{ 


"_ index" : "blog", 
" type" : "article", 


i : 


mLny 
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" version" : 2 

"exists" : true, 

"_source" : { 
"title":"New version of Elasticsearch released!", 
"content":"new content", 
"tags": ["announce", "elasticsearch","release"] 

} 


Elasticsearch 修 改 了 文章 的 content 和 该 文档 的 版 本 号 。 注 意 ， 不必 发 送 整 个 文档 ， 只 需 发 
送 改 变 的 部 分 。 但 是 请 记 住 ， 为 了 使 用 更 新 功能 ， 需 要 使 用 _source 字 段 ，2.4 节 将 描述 如 何 使 


用 _s Ourc e 字 段 o 


关于 文档 更 新 , 还 有 一 点 ， 如 果 你 的 脚本 需要 更 新 文档 的 一 个 字段 ， 你 可 以 设置 一 个 值 用 来 
人 处理 文档 中 没有 该 字段 的 情况 。 例 如 ， 想 增加 文档 中 的 counter 字 段 ， 而 该 字段 不 存在 ,你 可 以 
在 请 求 中 使 用 upsexrt 节 来 提供 字段 的 默认 值 。 看 下 面 的 例子 : 
curl -XPOST http://localhost:9200/blog/article/1/ update -d '{ 
"script": "ctx._ source.counter += 1", 
"upsert": { 
"counter" : 0 
} 
}" 
执行 这 个 示例 ，Elasticsearch 会 在 示例 文档 中 添加 一 个 值 为 0 的 counter 字 段 。 这 是 因为 我 们 
的 文档 没有 counter 字 段 ， 而 我 们 在 更 新 请 求 中 指定 了 upsert 节 。 









































1.4.6 ”删除 文档 


我 们 已 经 看 到 如 何 创 建 (PUT )、 检索 (GET ) 和 更 新 文档 , 不 难 猜 到 , 删除 文档 的 过 程 是 类 似 
的 : 需要 使 用 DELETE 请 求 类 型 发 送 一 个 适当 的 HTTP 请 求 。 例如 , 要 删除 示例 文档 , 运行 以 下 命令 : 














Curl -XDELETE http://localhost:9200/blog/article/1 

Elasticsearch 的 响应 如 下 所 示 : 

{"found":true," index":"blog"," type":"article"," id":"1"," version":3} 
这 意味 着 我 们 找到 并 删除 了 该 文档 。 


现在 可 以 利用 CRUD 操 作 。 我 们 已 经 可 以 使 用 Elasticsearch 作 为 一 个 简单 的 键 值 存 储 来 创建 应 
用 程序 。 但 这 仅仅 是 开始 ! 


























1.4.7 版 本 控制 
在 提供 的 例子 中 ,你 可 能 注意 到 了 文档 的 版 本 信息 ， 它 看 起 来 如 下 所 示 : 
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0 后 从 二 


仔细 观察 ， 你 会 发 现在 更 新 相同 标识 符 的 文档 后 ， 这 个 版 本 是 递增 的 。 默 认 人 情况 下 ， 
Elasticsearch 在 添加 、 更 改 或 删除 文档 时 都 会 递增 版 本 号 。 除 了 告诉 我 们 对 文档 所 做 更 改 的 次 数 ， 
还 能 够 实现 乐观 锁 ( optimistic locking, http://en.wikipedia.org/wiki/Optimistic_concurrency_control )。 
这 允许 我 们 在 并 发 处 理 同一 文档 时 避免 问题 。 例 如 ， 在 两 个 不 同 的 应 用 程序 中 读 取 相同 的 文档 ， 
分 别 修改 它 ， 然 后 尝试 更 新 到 Elasticsearch。 没 有 版 本 控制 ， 我 们 将 看 到 最 后 更 新 的 版 本 。 使 用 
乐观 锁 ，Elasticsearch 保 证 数据 的 准确 性 ， 尝 试 写 入 一 个 已 更 改 的 文档 将 会 失败 。 

1. 版 本 控制 的 一 个 例子 

我 们 来 看 一 个 使 用 版 本 控制 的 示例 。 假设 要 删除 1ibrary 索 引 中 类 型 为 pbook ia 为 1 的 文档 。 
我 们 也 要 确保 如 果 文 档 没 有 更 新 , 则 删除 操作 成 功 。 需要 做 的 是 添加 一 个 值 为 1 的 version 参 数 ， 
如 下 所 示 : 

Curl -XDELETE 'localhost:9200/library/book/1l?version=1' 

如 果 索 引 中 文档 的 版 本 不 等 于 1 ，Elasticsearch 将 返回 如 下 错误 : 


{ 
"error": "VersionConflictEngineException[[library] [4] [book] [1]: 
version conflict, current [2], provided [1]]", 
"status": 409 
} 


在 我 们 的 示例 中 ，Elasticsearch 比 较 我 们 声明 的 版 本 号 和 在 Elasticsearch 中 文档 的 版 本 号 ， 发 
现 不 一 样 ， 所 以 操作 失败 。 

2. 使 用 外 部 系统 提供 的 版 本 

Elasticsearch 也 可 基于 我 们 提供 给 它 的 版 本 号 。 在 版 本 存储 在 外 部 系统 时 ， 这 是 必要 的 。 这 
种 情况 下 ， 当 你 新 索引 一 个 文档 时 ， 应 该 如 上 面 的 示例 一 样 提 供 一 个 version 参 数 。 这 时 ， 
Elasticsearch 将 只 检查 提供 的 版 本 是 否 比 当前 保存 在 索引 中 的 版 本 大 ( 大 多 少 并 不 重要 ), 如 果 是 ， 
操作 成 功 ， 否则 将 失败 。 为 了 告诉 Elasticsearch 我 们 要 使 用 外 部 版 本 跟踪 ， 除了 version 参 数 外 ， 
还 需要 添加 version_type=external 参 数 。 

例如 ， 在 系统 添加 文档 版 本 123456， 将 运行 如 下 命令 : 


Curl -XPUT 'localhost:9200/library/book/l?version=123456' -d {...} 
























































即使 文档 被 移 除 后 ，Elasticsearch 仍 然 可 以 检查 版 本 号 。 这 是 因为 
Elasticsearch 保 留 了 删除 文档 的 版 本 信息 。 默 认 情况 下 ， 此 信息 在 删除 的 60 秒 内 
可 用 。 可 以 通过 修改 index.gc_deletes 配 置 参 数 来 更 改 这 个 值 。 
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1.5 ”使 用 URI 请 求 查 询 来 搜索 


进入 Elasticsearch 查 询 的 详细 信息 之 前 ， 先 使 用 其 中 简单 的 URI 请 求 来 搜索 。 当 然 ， 第 3 章 将 
扩展 使 用 Elasticsearch 搜 索 的 知识 ， 但 是 现在 ， 先 使 用 最 简单 的 方法 。 








1.5.1 示例 数据 
本 节 将 创建 一 个 简单 的 索引 ， 它 有 两 个 文档 类 型 。 为 此 ， 运 行 以 下 命令 : 
curl -XPOST 'localhost:9200/books/es/1' -d '{"title":"Elasticsearch Server", 
"published": 2013}' 
Curl -XPOST 'localhost:9200/books/es/2' -d '{"title":"Mastering Elasticsearch", 
"published": 2013}' 


Curl -XPOST 'localhost:9200/books/solr/1' -d '{"title":"Apache Solr 4 Cookbook", 
"published": 2012}' 


运行 上 述 命 令 将 创建 books 索 引 ， 该 索引 包含 两 种 类 型 es 和 solr。Title 和 published 
字段 将 被 索引 。 如 果 你 想 检查 ， 可 以 通过 运行 以 下 命令 映射 API，2.2 节 将 讨论 映射 : 


Curl -XGET 'localhost:9200/books/ mapping?pretty' 


Elasticsearch 将 返回 整个 索引 的 所 有 映射 。 


1.5.2 URI 请求 
Elasticsearch 的 所 有 查询 都 发 送 到 _search 端 点 。 你 可 以 搜索 单个 或 多 个 索引 ， 也 可 以 将 搜 
索 范 围 缩小 到 给 定 的 一 个 或 多 个 文档 类 型 。 例 如 ， 为 了 寻找 books 索 引 ， 运 行 以 下 命令 : 
curl -XGET 'localhost:9200/books/_search?pretty' 
如 果 还 有 男 一 个 索引 叫 clients， 也 可 对 这 两 个 索引 执行 一 个 查询 : 
curl -XGET 'localhost:9200/books,clients/_search?pretty' 


以 同样 的 方式 ， 还 可 以 选择 搜索 时 要 使 用 的 类 型 。 如 果 只 想 在 books 索 引 的 es 类 型 中 搜索 ， 


将 运行 如 下 命令 : 




















curl -XGET '‘'localhost:9200/books/es/_search?pretty' 


请 记 住 , 为 了 搜索 一 个 给 定 的 类 型 ,需要 指定 一 个 或 多 个 索引 。 如 果 要 寻找 
任意 索引 ， 只 需要 设置 星 号 (* ) 为 索引 名 称 ， 或 忽略 索引 名 称 。Elasticsearch 在 
> 选择 索引 名 称 时 支持 相当 丰富 的 语义 。 如 果 你 有 兴趣 ， 请 参考 http://www. 


lasticsearch.org/guide/en/elasticsearch/reference/current/multi-index.html。 
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还 可 以 省 略 索引 和 类 型 来 搜索 所 有 索引 。 例 如 ， 以 下 命令 将 搜索 集 和 


f 中 的 所 有 数据 : 





Curl -XGET 'localhost:9200/_search?pretty' 


1. Elasticsearch 查 询 响应 


假设 想 找到 books 索 引 中 title 字 段 包 含 slasticsearch 一 词 的 所 有 文档 ， 可 以 运行 以 下 


查询 : 


( timed_out 属 性 ), 执行 请 求 时 查询 的 分 片 信息 ， 
属性 )、 成 功 返 回 结果 的 分 片 数 量 ( _shards 对 象 的 successful 属 性 )、 失 败 的 分 片 数量 
(_shards 对 象 的 failed 属 性 )。 如 果 查 询 执 行 时 间 比 预想 的 更 长 ， 它 可 能 会 超时 ( 可 以 使 用 
timeout 参 数 指定 查询 的 最 大 执行 时 间 )。 可 以 使 用 超时 参数 ， 指 定 最 大 查询 执行 时 间 。 失 败 的 





分 片 


Curl -XGET 
'Jocalhost:9200/books/_ search?pretty&q=title:elasticsearch' 


Elasticsearch 返 回 的 响应 如 下 所 示 : 


{ 

"took" : 4, 

"timed out" : 

"_shards" : { 
"total" : 5, 
"successful" : 
"failed" : 0 

}, 

"hits" : { 
"total" : 2， 
"max_score" : 
"hits" : [ { 

"_ index" : "books", 
"_ type" : "es", 
“id ST1", 
"_score" : 0.625, "_ source" : 
"published": 2013} 
}, 1 
"_ index" : "books", 
"_ type" : "es", 
wold 3 WT2" 
"_score" : 0.19178301, 
Elasticsearch", "published": 
} ] 
} 
} 


false, 


5, 


0.625, 


"_ source" : {"title":"Mastering 
2013} 





{"title":"Elasticsearch Server", 


响应 的 第 一 部 分 告诉 我 们 该 请 求 花 了 多 少时 间 ( took 属 性 ， 单 位 是 毫秒 )， 有 没有 超时 











包括 查询 的 分 片 数 量 ( 




















意味 着 分 片 出 了 问题 或 在 执行 搜索 时 不 可 用 。 
当然 ， 上 述 信息 很 有 用 ， 但 是 通 























_shards 对 象 的 total 





党 我 们 对 hits 对 象 中 返回 的 结果 感 兴趣 。 我 们 有 查询 返回 


的 文档 总 数 ( total 属性 ) 和 计算 所 得 的 最 高 分 (max_score 属 性 )， 还 有 包含 返回 文档 的 hits 
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数组 。 在 本 例 中 ， 每 个 返回 的 文档 包含 索引 (_index 属 性 )、 类 型 ( _type 属 性 )、 标 识 符 (_iq 
属性 )、 得 分 (_score 属 性 ) 和 _source 字 段 (通常 ， 这 是 发 送 到 索引 的 JSON 对 象 。 这 一 内 容 
将 在 2.4 节 讨论 )。 


2. 查询 分 析 


你 可 能 党 得 奇怪 为 什么 上 一 节 运 行 的 查询 可 以 返回 结果 。 用 Elasticsearch 建 立 索 引 ， 然 后 用 
elasticsearch 来 执行 查询 ， 虽 然 大 小 写 不 同 ， 还 是 可 以 找到 相关 文档 ， 原 因 就 是 查询 分 析 。 
在 建立 索引 时 ， 底 层 的 Lucene 库 根据 Elasticsearch 配 置 文件 分 析 文档 并 建立 索引 数据 。 默 认 情 况 
下 ，Elasticsearch 会 告诉 Lucene 对 基于 字符 串 的 数据 和 数字 都 做 索引 和 分 析 。 查 询 阶 段 也 一 样 ， 
为 URI 请 求 查询 会 映射 到 query_string 查 询 (将 在 第 3 章 讨 论 )，Elasticsearch 会 分 析 它 。 





dl 


























使 用 索引 分 析 API ( indices analyze API,， http://www.elasticsearch.org/guide/en/ elasticsearch/ 
eference/current/indices-analyze.html )， 可 以 看 到 分 析 过 程 是 怎样 的 ， 在 建立 索引 时 发 生 了 什么 ， 
在 查询 阶段 又 发 生 了 什么 。 


为 了 看 到 title 字 段 上 的 短语 “Elasticsearch Server” 建 立 的 索引 具体 是 什么 ， 可 以 执行 以 下 


个 令 : 























如 


Curl -XGET 'localhost:9200/books/ analyze?field=title' -d 
'Elasticsearch Server' 


啊 应 如 下 : 


{ 
"tokens" : [ { 
"token" : "elasticsearch", 
"start_ offset" : 0, 
"end offset" : 13, 
"type"™" : "<ALPHANUM>", 
"position" : 1 
}, 1{ 
"token" : "server", 
"start offset" : 14, 
"end offset" : 20, 
"type"™" : "<ALPHANUM>", 
"position" : 2 
}] 
} 


可 以 看 到 ,Elasticsearch 把 文本 划分 为 两 个 词 ,第 一 个 标记 值 ( token value ) 为 elasti search， 
第 二 个 标记 值 为 server。 
现在 看 看 查询 文本 是 如 何 被 分 析 的 ， 运 行 以 下 命令 : 


Curl -XGET 'localhost:9200/books/ analyze?pretty&field=title' -d 
'elasticsearch' 
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啊 应 如 下 : 
{ 
"tokens" : [ { 
"token" : "elasticsearch", 
"start offset" : 0, 
"end offset" : 13, 
"type™" : "<ALPHANUM>", 
"position" : 1 


}] 
} 


可 以 看 到 , 这 个 词 和 传 到 查询 的 原始 值 是 一 样 的 。 我 们 不 会 详细 介绍 Lucene 查 询 以 及 查询 解 
析 咒 如 何 构建 查询 ， 但 总 地 来 说 ， 分 析 之 后 的 索引 词 和 分 析 之 后 查询 词 是 一 样 的 ， 因 此， 该 文档 
与 查询 匹配 并 作为 结果 返回 。 

3. URI 查 询 中 的 字符 参数 

有 几 个 参数 ， 可 以 用 来 控制 URI 查 询 行为 ， 现 在 来 讨论 一 下 。 查 询 中 的 每 个 参数 应 加 上 g 字 
符 ， 如 以 下 示例 所 示 : 

Curl -XGET 


'localhost:9200/books/_search?pretty&q=published: 
2013&df=title&explain= rue&default operator=AND' 


请 记得 ' 字 符 ， 因 为 在 类 Linux 系 统 上 ，& 字 符 会 被 Linux shell 解 析 。 

(1) 查询 

参数 a 用 来 指定 我 们 希望 文件 匹配 的 查询 条 件 。 可 以 使 用 Lucene 查 询 语法 来 指定 查询 ，1.5.3 
节 会 描述 。 例 如 ， 一 个 简单 的 查询 可 能 类 似 q=title:elasticsearch。 

(2) 默认 查询 字段 


使 用 af 参 数 , 可 以 指定 在 a 参数 中 没有 字段 时 应 该 默认 使 用 的 字段 ,默认 情况 下 ,将 使 用 _al1 
字段 。Elasticsearch 把 其 他 所 有 字段 的 内 容 复制 到 _al1 字 段 。2.4 节 将 更 深入 地 讨论 。 一 个 af 参数 
的 例子 是 af=title。 


























(3) 分 析 器 

可 以 将 analyzez 属 性 定义 用 于 分 析 查 询 的 分 析 器 名 称 。 默 认 情 况 下 ， 索 引 阶 段 对 字段 内 容 
做 分 析 的 分 析 器 将 用 来 分 析 我 们 的 查询 。 

(4) 默认 操作 符 
Defaul t_operator 属 性 可 以 设置 成 oR 或 AND 5 用 来 指定 用 于 查询 的 默认 布尔 运算 符 。 默认 
情况 下 ， 它 设置 为 oR， 意 味 着 只 要 有 一 个 查询 条 件 匹 配 ， 就 将 返回 文档 。 此 参数 设置 为 AND 时 ， 
所 有 查询 条 件 都 匹配 时 才 会 返回 文档 。 
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(5) 查询 解释 








如 果 将 explain 参 数 设 置 为 Lrue, Elasticsearch 将 在 结果 的 每 个 文档 里 包括 额外 的 解释 信 ， 
如 文档 是 从 哪个 分 片上 获取 的 、 计 算得 分 的 详细 信息 (5.7 节 将 深入 讨论 )。 记 住 ， 不 要 在 正常 的 





搜索 查询 中 设置 explain 为 true， 因 为 它 需要 额外 的 资源 并 使 查询 的 性 能 下 降 。 下 面 的 代码 是 











一 个 例子 : 


{ 
"_shard" : 3, 
"_ node" : "kyuzK62NQcGJyhc2gI1lP2w", 
"_index" : "books", 
" type" : "es", 
" id" : "2", 
"_score" : 0.19178301, " source" : {"title":"Mastering 
Elasticsearch", "published": 2013}, 
" explanation" : { 
"value" : 0.19178301, 
"description" : "weight (title:elasticsearch in 0) 
[PerFieldSsimilarity], result of:", 
"details" : [ { 
"value" : 0.19178301, 
"description" : "fieldWeight in 0, product of:", 
"details" : [ { 
"value" : 1.0, 
"description" : "tf(freq=1.0), with freq of:", 
"details" : [ { 
"value" : 1.0, 
"description" : "termFreq=1.0" 
}] 
}, { 
"value" : 0.30685282, 
"description" : "idf(docFreq=1, maxDocs=1)" 
}, { 
"value" : 0.625, 
"description" : "fieldNorm(doc=0)" 
}] 
}] 


} 


(6) 返回 字段 











自 





Do 9 

















默认 情况 下 ， 返 回 的 每 个 文档 中 ，Elasticsearch 将 包括 索引 名 称 、 类 型 名 称 、 文 档 标识 符 、 


得 分 和 _source 字 段 。 我 们 可 以 修改 这 个 行为 ， 通 过 添加 fielas 参 数 并 指定 一 个 以 逗号 分 隔 的 
字段 名 称 列表 。 这 些 字段 将 在 存储 字段 ( 如果 存 在 的 话 ) 或 内 部 _source 字 段 中 检索 。 默 认 情 况 














下 ， 字 上 段 的 fielqds 参 数值 是 _source。 一 个 例子 是 fields=title。 


[ 渤 也 可 以 加 上 _source 参 数 并 把 值 设 为 false， 来 禁用 _source 字 段 的 读 取 。 


图 灵 社 区 会 员 打 顺 顺 (lvshun@live.cn) 专 享 尊重 版 权 








1.5 使 用 URI 请 求 查询 来 搜索 25 





(7) 结果 排序 


通过 使 用 sort 参 数 ， 可 以 指定 自 定义 排序 。Elasticsearch 的 默认 行为 是 把 返回 文档 按 它们 的 
得 分 降序 排列 ,如 果 想 有 不 同 的 排序 , 则 需要 指定 sort 参 数 , 例 如 ,添加 sort=published:desc， 
文档 将 按 published 字 有 段 降序 排序 ; 添加 sort=published:asc， 则 告诉 Elasticsearch 把 文档 按 
published 字 有 段 升序 排序 。 


如 果 指 定 自 定义 排序 ，Elasticsearch 将 省 略 计算 文档 的 _score 字 段 。 这 可 能 不 是 你 想 要 的 。 
如 果 在 自 定 义 排 序 的 同时 还 想 保 持 追 踪 每 个 文档 的 得 分 ， 你 应 该 把 track_scores=true 添 加 到 
你 的 查询 。 请 注意 ,进行 自 定 义 排序 时 跟踪 分 数 , 会 使 查询 稍微 慢 一 点 ( 你 可 能 根本 察觉 不 到 )， 
因为 需要 处 理 能 力 来 计算 得 分 。 


(8) 搜索 超时 


默认 情况 下 ，Elasticsearch 没 有 查询 超时 , 但 你 可 能 希望 查询 在 一 段 时 间 ( 比如 5 秒 ) 后 超时 。 
Elasticsearch 人 允许 你 设置 timeout 人 参数 。 查 询 将 执行 到 给 定 的 timeout 值 ， 在 那 一 刻 ， 收 集 的 结 
果 将 返回 。 把 timeout=5s 添 加 到 你 的 查询 ， 就 可 指定 一 个 5 秒 的 超时 。 


(9) 查询 结果 窗口 


Elasticsearch 人 允许 你 指定 结果 窗口 (应 返回 的 结果 列表 中 文件 的 范围 )。 有 两 个 参数 用 来 指定 
结果 窗口 大 小 : size 和 from。size 人 参数 默认 为 10, 它 定 义 了 返回 结果 的 最 大 数量 。from 参 数 的 
默认 值 为 0, 它 指定 结果 应 该 从 哪个 记录 开始 返回 。 为 了 从 第 11 个 开始 返回 5 个 文档 ,我 们 将 在 查 
询 中 添加 以 下 参数 : size=5&from=10 


(10) 搜索 类 型 


URI 查 询 允 许 使 用 S earch_type 人 参数 指定 搜索 类 型 搜索 类 型 默认 为 auery_then 上 etch。 
我 们 可 以 使 用 以 下 6 个 值 : 













































































D dfs_query_ then_fetch 
D dfs_query_angd_ fetch 
D query_then fetch 

D query_angd_ fetch 


口 count 





D scan 
3.2 节 将 介绍 更 多 搜索 类 型 的 相关 知识 。 

(11) 小 写 扩展 词 

一 些 查 询 使 用 查询 扩展 ， 比 如 前 级 查询 ( prefix query )，3.9 节 将 讨论 这 一 内 容 。 可 以 使 用 
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lowercase_expanded_terms 属 性 来 定义 扩展 词 是 否 应 该 被 转 为 小 写 。 默 认 该 属性 为 Lrue, 意 
味 着 扩展 词 将 被 小 写 。 


(12) 分 析 通 配 符 和 前 级 


默认 情况 下 ， 通配符 查询 和 前 级 查询 不 会 被 分 析 。 如 果 要 更 改 此 行为 ,可 以 把 analyze_ 
ildcard 属 性 设置 为 true。 














1.5.3” Lucene 查 询 语法 


我 们 认为 最 好 大 人 至 了 解 在 URI 查 询 里 的 g 参 数 中 可 以 使 用 的 语法 。Elasticsearch 中 的 一 些 查 询 ， 
比如 正在 讨论 的 这 个 查询 ， 支 持 使 用 Lucene 查 询 解 析 器 语法 ,这 是 一 种 用 来 构建 查询 的 语言 。 来 
看 看 它 并 讨论 一 些 基本 功能 。 如 果 想 阅读 完整 的 Lucene 查 询 语法 ， 请 访问 如 下 网 页 : 


http://lucene.apache.org/core/4 6 l/queryparser/org/apache/lucene/queryparser/classic/package-summa 








ry.html。 


我 们 传 到 Lucene 的 查询 被 查询 解析 器 分 为 词 (term ) 和 操作 符 (operator )。 先 从 词 开始 ， 你 
可 以 区 分 两 种 类 型 的 词 : 单词 和 短语 。 例如, 为 了 查询 title 字 段 中 的 book 一 词 , 传人 如 下 查询 : 





title:book 

为 了 查询 title 字 段 中 elasticsearch book 这 个 短语 ， 传 人 如 下 查询 : 

title:"elasticsearch book" 

你 可 能 已 经 注意 到 ， 字 段 的 名 字 在 前 面 ， 单 词 或 短语 在 后 面 。 

前 面 说 过 ，Lucene 查 询 语法 支持 操作 符 。 例 如 ， 操 作 符 + 告诉 Lucene 给 定 部 分 必须 在 文档 中 
匹配 。 操作 符 - 正 相反 ,查询 的 这 一 部 分 不 能 出 现在 文档 中 。 查 询 中 既 没 有 + 又 没 有 - 操作 符 的 部 
分 将 被 视 为 可 以 匹配 、 但 非 强制 性 的 查询 。 所 以 ， 如 果 想 找 title 字 段 包 含 book 一 词 但 
description 字 上 段 不 包含 cat 一 词 的 文档 ， 传人 以 下 查询 : 




















+title:book -description:cat 


也 可 以 用 括号 来 组 合 多 个 词 ， 如 下 面 的 查询 : 





title: (crime punishment) 
还 可 以 使 用 ^ 操 作 符 接 上 一 个 值 来 助 推 (boost ) 一 个 词 ， 比 如 以 下 查询 : 


title:book’^4 











GD boost 将 加 强 查 询 对 该 词 的 相关 性 。 一 一 译 者 注 
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1.6 小结 


本 章 介绍 了 什么 是 全 文 搜索 ， 以 及 Apache Lucene 是 如 何 实现 的 ; 熟悉 了 Elasticsearch 的 基本 
概念 和 它 的 顶层 架构 ; 使 用 Elasticsearch REST API 来 索引 、 更 新 、 检 索 ， 最 终 删 除数 据 ; 最 后 ， 
使 用 简单 的 URI 查 询 搜 索 了 我 们 的 数据 。 下 一 章 的 重点 是 建立 索引 数据 。 我们 将 看 到 Elasticsearch 
索引 的 工作 原理 ， 主 分 片 和 其 副本 的 作用 。 还 会 看 到 Elasticsearch 如 何 处 理 它 不 知道 的 数据 ， 或 
者 说 如 何 创建 我 们 自己 的 映射 ， 也 就 是 描述 索引 结构 的 JSON 结 构 。 我 们 还 将 学 习 如 何 使 用 批量 
索引 来 加 快 索引 过 程 ,可 以 存储 什么 额外 的 信息 来 帮助 实现 目标 。 此 外 , 我 们 将 讨论 什么 是 索引 
段 ， 什 么 是 段 合并 以 及 如 何 调整 段 。 最 后 ， 我 们 将 看 到 在 Elasticsearch 中 路 由 是 如 何 工作 的 ， 以 
及 在 谈 到 索引 路 由 和 查询 路 由 时 ， 有 什么 选择 。 
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上 一 章 介绍 了 关于 全 文 搜索 和 Elasticsearch 的 基础 知识 ， 也 知道 了 什么 是 Apache Lucene， 还 
了 解 到 Elasticsearch 的 安装 、 标 准 目录 布局 及 注意 事项 。 我 们 创建 了 索引 ， 检 索 并 更 新 了 数据 ， 
最 后 使 用 简单 的 URI 查 询 从 Elasticsearch 获 得 数据 。 在 本 章 结 束 之 时 ， 你 将 学 到 以 下 内 容 : 


口 Elasticsearch 索 引 ; 

口 配置 索引 结构 上 映射， 知道 可 使 用 的 字段 类 型 ; 
口 使 用 批量 索引 加 快 索引 过 程 ; 

口 使 用 附加 的 内 部 信息 扩展 索引 结构 ; 

口 理解 、 设 置 及 控制 段 合 3 

口 理解 路 由 的 工作 原理 ， 并 根据 需求 设置 。 














2.1 Elasticsearch 索引 


我 们 已 经 启动 并 运行 Elasticsearch 和 集群 , 知道 了 如 何 使 用 Elasticsearch REST API 索 引 、 删 除 和 
检索 数据 ， 如 何 通过 搜索 来 获取 文档 。 如 果 你 用 过 SQL 数据 库 ， 或 许 会 知道 ， 在 存 人 数据 前 ， 需 
要 创建 用 来 描述 数据 的 一 个 结构 。 尽 管 Elasticsearch 是 一 个 无 模式 的 搜索 引擎 ， 可 以 即时 算出 数 
据 结构 ， 但 我 们 仍 认 为 由 自己 控制 并 定义 结构 是 更 好 的 方法 。 在 接 下 来 的 内 容 中 , 你 将 看 到 如 何 
创建 和 删除 索引 。 在 深入 了 解 可 用 的 AP 方法 之 前 ， 先 了 解 一 下 建立 索引 的 过 程 。 














2.1.1 分 片 和 副本 


回忆 之 前 的 章节 ，Elasticsearch 索 引 是 由 一 个 或 多 个 分 片 组 成 的 ， 每 个 分 片 包含 了 文档 集 的 
一 部 分 。 而 且 这 些 分 片 也 可 以 有 副本 ,它们 是 分 片 的 完整 副本 。 在 创建 索引 的 过 程 中 ,可 以 规定 
应 创建 的 分 片 及 副本 的 数量 。 也 可 以 忽略 这 些 信息 ， 并 使 用 全 局 配置 文件 ( elasticsearch.yml ) 定 
义 的 默认 值 ， 或 Elasticsearch 内 部 实现 的 默认 值 。 如 果 我 们 依赖 Elasticsearch 的 默认 值 ， 索 引 结 
时 将 得 到 5 个 分 片 及 1 个 副本 。 这 意味 着 什么 ?简单 来 说 ,操作 结束 时 , 将 有 10 个 Lucene 索 引 分 布 
在 集群 中 。 
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想 知道 如 何 通过 5 个 分 片 和 1 个 副本 计算 得 出 有 10 个 Lucene 索 引 ? “副本 ” 
(replica ) 这 个 术语 有 些 误导 。 它 意味 着 每 一 个 分 片 都 有 自己 的 分 片 副本 ( copy )， 
所 以 实际 上 有 5 个 分 片 和 5 个 相应 分 片 副 本 。 


一 般 而 言 ， 同 时 具有 分 片 和 与 其 相应 的 副本 ， 意 味 着 建立 索引 文档 时 ， 两 者 都 得 修改 。 这 是 
因为 要 使 分 片 得 到 精确 的 副本 ，Elasticsearch 需 将 分 片 的 变动 通知 所 有 副本 。 若 要 读 取 文件 ， 可 
以 使 用 分 片 或 者 其 副本 。 在 具有 许多 物理 节点 的 系统 中 ， 可 以 把 分 片 和 副本 放置 于 不 同 节点 上 ， 
从 而 发 挥 更 多 处 理 能 力 (如 磁盘 IO 或 CPU )。 综 上 所 述 ， 得 出 结论 如 下 。 


口 更 多 分 片 使 索引 能 传送 到 更 多 服务 器 ， 意 味 着 可 以 处 理 更 多 文件 ， 而 不 会 降低 性 能 。 

口 更 多 分 片 意味 着 获取 特定 文档 所 需 的 资源 量 会 减少 ， 因 为 相 较 于 部 署 更 少 分 片 时 ,存储 

在 单个 分 片 中 的 文件 数量 更 少 。 

口 更 多 分 片 意味 着 搜索 索引 时 会 面临 更 多 问题 ， 因 为 必须 从 更 多 分 片 中 合并 结果 ， 使 得 查 

询 的 聚合 阶段 需要 更 多 资源 。 

口 更 多 副本 会 增强 集群 系统 的 容错 性 ， 因 为 当 原始 分 片 不 可 用 时 ， 其 副本 将 替代 原始 分 片 
发 挥 作 用 。 只 拥有 单个 副本 ， 集 群 可 能 在 不 丢失 数据 的 情况 下 遗失 分 片 。 当 有 两 个 副本 
时 ， 即 使 丢失 了 原始 分 片 及 其 中 一 个 副本 ,一 切 工作 仍 可 以 很 好 地 持续 下 去 。 

口 更 多 副本 意味 着 查询 吞吐 量 将 会 增加 ， 因 为 执行 查询 可 以 使 用 分 片 或 分 片 的 任 一 副本 。 


当然 ，Elasticsearch 中 分 片 和 副本 的 数量 之 间 还 有 其 他 关系 ， 稍 后 将 讨论 。 


那么 ,应 该 以 什么 标准 来 确定 分 片 和 副本 的 数量 ?这 要 视 情况 而 定 。 我 们 相信 ， 默认 值 确实 
不 错 , 但 一 个 好 的 测试 无 法 取代 。 需要 注意 的 是 , 副本 的 数量 相对 没 那 么 重要 ， 因 为 可 以 在 生成 
索引 后 ,在 生产 环境 的 集群 中 调整 。 只 要 你 想 ， 并 且 有 足够 的 资源 ， 就 可 以 删除 和 添加 副本 。 但 
对 于 分 片 来 说 ,这 样 的 操作 就 不 可 能 了 。 一 旦 创建 好 索引 ,更 改 分 片 数 量 的 唯一 途径 就 是 创建 男 
一 个 索引 并 重新 索引 数据 。 
















































































2.1.2 创建 索引 
在 Elasticsearch 中 创建 第 一 个 文档 时 ， 没 有 关心 索引 的 建立 ， 只 是 使 用 了 如 下 命令 : 


curl -XPUT http://localhost:9200/blog/article/1 -d '{"title": "New 
Version of Elasticsearch released!", "content": "...", "tags": 
["announce", "elasticsearch", "release"] }' 





这 是 可 以 的 。 如 果 这 样 的 索引 不 存在 ，Elasticsearch 会 为 我 们 自动 创建 索引 。 还 可 以 通过 运 
行 以 下 命令 来 创建 索引 : 


CuULr1L -XPUT http://localhost:9200/blog/ 


我 们 只 是 告诉 Elasticsearch 需 要 创建 名 为 blog 的 索引 。 顺 利 的 话 ， 你 会 从 Elasticsearch 看 到 如 
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下 响应 : 
{"acknowledged":true} 
什么 时 候 需要 手动 创建 索引 ? 有 许多 情况 ， 比 如 额外 设置 时 ,设置 索引 结构 或 分 片 数目 。 
1. 修改 索引 的 自动 创建 


有 了 时 你 会 觉得 ， 自 动 创建 索引 并 非 是 一 件 好 事 。 当 你 有 一 个 大 系统 , 需要 很 多 流程 来 将 数据 
输送 到 Elasticsearch 时 ， 索 引 名 称 的 一 个 简单 拼写 错误 可 能 会 破坏 掉 几 小 时 的 脚本 工作 。 你 可 以 
通过 在 elasticsearch.yml 配 置 文件 中 添加 以 下 指令 来 关闭 自动 创建 索引 : 

















action.auto_create_index: false 


需要 注意 的 是 ，action.auto_create_index 比 看 起 来 要 复杂 。 我 们 不 但 
可 以 把 它 的 值 设置 成 false 或 ture， 也 可 以 使 用 索引 的 名 字模 式 来 指定 是 否 在 
具有 给 定名 字 的 索引 不 存在 时 自动 创建 。 例 如 在 下 面 的 例子 中 , 允许 自动 创建 以 
- a 开 头 的 索引 ， 但 以 an 开头 的 索引 则 不 允许 。 其 他 索引 也 必须 手动 创建 (因为 指 
令 中 的 -* )。 


action.auto create_ index: -an*,+a*,-* 

注意 ， 模 式 定 义 的 顺序 很 重要 。Elasticsearch 检 查 这 些 模式 直到 第 一 种 匹配 
的 模式 ， 所 以 ， 如 果 你 将 -an* 移 动 到 最 后 ， 它 将 不 会 被 使 用 ， 因 为 指令 中 含有 
+a*, 所 以 优先 使 用 +ar。 


2. 新 创建 索引 的 设 定 


想 设置 一 些 配置 选项 时 ， 也 需要 手动 创建 索引 ， 例 如 设置 分 片 和 副本 的 数量 。 来 看 看 下 面 的 
例子 : 
curl -XPUT http://localhost:9200/blog/ -d '{ 
"settings" : { 
"number of shards" : 1, 
"number of replicas" : 2 
} 
¥” 
上 面 的 命令 将 创建 名 为 blog 的 索引 ， 它 将 有 1 个 分 片 和 2 个 副本 ， 即 共 得 到 3 个 物理 Lucene 索 
引 。 此 外 ， 也 可 以 通过 这 种 方式 设置 其 他 值 ， 稍 后 讨论 。 
所 以 , 我们 已 经 创建 了 新 的 索引 。 但 是 有 一 个 问题 , 我 们 忘 了 提供 映射 来 描述 索引 结构 。 该 
怎么 做 ? 既然 还 没有 任何 数据 ， 那 就 选择 最 简单 的 方法 : 删除 索引 。 为 此 ,将 运行 类 似 于 上 面 的 
指令 ， 然 而 不 是 用 HTTP PUT 方 法 ， 而 是 使 用 DELETE。 实 际 指令 如 下 所 示 : 

















Curl -XDELETE http://localhost:9200/posts 
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响应 将 与 我 们 之 前 看 到 的 一 样 ， 如 下 所 示 : 
{"acknowledged":true} 


现在 我 们 知道 什么 是 索引 ， 如 何 创建 和 删除 ， 我 们 已 经 准备 好 用 定义 好 的 映射 来 创建 索引 。 
这 部 分 非常 重要 ， 因 为 数据 索引 化 将 会 影响 搜索 过 程 和 文档 匹配 方式 。 





2.2 ”映射 配置 


如 果 你 习惯 用 SQL 数据 库 ， 或 许 会 知道 ， 在 存 和 人 数据 前 需要 创建 模式 以 描述 数据 。 尽 管 
Elasticsearch 是 一 个 无 模式 的 搜索 引擎 ， 可 以 即时 算出 数据 结构 ， 我 们 仍 认 为 由 自己 控制 并 定义 
结构 是 更 好 的 方法 。 在 接 下 来 的 内 容 中 , 你 将 看 到 如 何 创 建 及 删除 新 的 索引 , 也 将 了 解 如 何 创建 
映射 以 满足 需求 和 匹配 你 的 数据 结构 。 








注意 ， 我 们 并 不 会 在 本 章 中 阐述 现 有 类 型 的 全 部 信息 。Elasticsearch 的 嵌 套 
类 型 、 主 从 关系 处 理 、 存 储 地 理 点 以 及 搜索 等 特性 ， 将 在 接 下 来 的 章节 说 明 。 


2.2.1 ”类 型 确定 机 制 


在 开始 描述 如 何 手动 创建 映射 之 前 ， 我 们 想 说 明 一 件 事 。Elasticsearch 可 以 通过 定义 文档 的 
JSON 来 猜测 文档 结构 。 在 JSON 中 ， 字 符 串 用 引号 括 起 来 ,布尔 值 使 用 特定 的 词语 定义 ， 数值 则 
是 一 些 数字 。 这 是 一 个 简单 的 技巧 ， 但 通常 有 效 。 举 例 说 明 ， 请 看 以 下 文档 : 

人 

"field1i": 10， 
"field2": "10" 

} 

上 面 的 文档 有 两 个 字段 。field1 将 被 确定 为 数字 (number， 准 确 地 说 是 long 类 型 ), 但 
field2 被 确定 为 字符 串 ， 因 为 它 用 引号 括 起 来 。 当 然 ， 这 是 我 们 所 需要 的 行为 ,但 有 时 数据 源 
会 省 略 掉 数 据 类 型 的 相关 信息 ， 一 切 都 以 字符 串 的 形式 呈现 。 解 决 方案 是 在 映射 定义 文件 中 把 
numeric_detection 属 性 设置 为 true,， 以 开启 更 积极 的 文本 检测 。 比 如 ,可 以 在 索引 的 创建 过 
程 中 执行 以 下 命令 : 


Curl -XPUT http://localhost:9200/blog/?pretty -d '{ 





























"mappings" : { 
"article": { 
"numeric detection" : true 


} 
} 
3 


可 惜 , 如 果 我 们 想 要 猜 中 布尔 类 型 ,问题 仍然 存在 。 我 们 不 能 从 文本 中 强制 推测 出 布尔 类 型 。 
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在 这 种 情况 下 ， 当 无 法 改变 源 格式 时 ， 只 能 在 映射 定义 中 直接 定义 字段 。 
造成 麻烦 的 另 一 个 类 型 是 基于 日 期 类 型 的 字段 。Elasticsearch 设 法 猜测 被 提供 的 时 间 玲 或 与 
日 期 格式 匹配 的 字符 串 。 可 以 使 用 daynamic_gdate_formats 属 性 定义 可 被 识别 的 日 期 格式 列表 ， 
该 属性 允许 指定 一 个 格式 的 数组 。 看 一 下 创建 索引 和 类 型 的 命令 : 
curl -XPUT 'http://localhost:9200/blog/' -d '{ 
"mappings" : { 
"article" : { 
"dynamic date formats" : ["yyyy-MM-dd hh:mm"] 
} 
} 
$ 3 
上 述 命令 可 以 创建 名 为 blog 的 索引 ， 其 中 包含 一 个 名 为 article 的 类 型 。 我 们 还 使 用 单一 
日 期 格式 的 dynamic_date_formats 属 性 ， 这 样 ， 对 于 与 此 格式 匹配 的 字段 ，Elasticsearch 将 使 
用 date 核 心 类 型 ( 请 参阅 本 章 的 “核心 类 型 ”部 分 了 解 更 多 关于 字段 类 型 的 信息 )。Elasticsearch 
使 用 jodqa-time 库 定义 日 期 格式 ， 所 以 如 果 有 兴趣 了 解 更 多 详情 ， 请 访问 http:/joda-time. 


sourceforge.net/api-release/org/joda/time/format/DateTimeFormat.html。 





















































. 记 住 ,dynamic_date_format 属 性 可 接受 一 个 数组 ,这 意味 着 , 我 们 可 以 
~ 同时 处 理 多 种 日 期 格式 。 


禁用 字段 类 型 猜测 


想象 以 下 情况 。 首 先 ， 索 引 一 个 数字 ， 一 个 整数 。Elasticsearch 会 猜测 其 类 型 ， 并 设置 类 型 
为 整数 型 ( integer ) 或 长 整 型 ( long ) ( 请 参阅 本 章 的 “核心 类 型 ”部 分 了 解 更 多 关于 字段 类 
型 的 信息 ) 如 果 索 引 另 一 个 文档 , 它 在 同一 个 字段 中 存储 的 是 浮 点 数 , 会 发 生 什么 ?Elasticsearch 
将 会 删除 小 数 部 分 并 存储 剩余 整数 。 关 闭 它 的 另 一 个 原因 在 于 我 们 不 希望 在 现 有 索引 中 添加 新 字 
段 : 那些 在 应 用 程序 开发 过 程 中 未 知 的 字段 。 


要 关闭 自动 添加 字段 ,可 以 把 Gynamic 属 性 设置 为 false。 把 dqynamic 属 性 添加 为 类 型 的 属 
性 。 例 如 ， 要 在 blog 索 引 中 为 article 类 型 关闭 自动 字段 类 型 猜测 ， 命 令 如 下 所 示 : 


curl -XPUT 'http://localhost:9200/blog/' -d '{ 
"mappings" : { 
"article" : { 
"dynamic" : "false", 
"properties" : { 
"id" : { "type" : "string" }, 
"content" : { "type" : "string" }, 
"author" : { "type" : "string" } 
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使 用 上 面 的 命令 创建 blog 索 引 后 ， 在 properties 部 分 (下 一 节 讨 论 ) 未 提 到 的 字段 会 被 
Elasticsearch 忽 上 略 。 如 此 ， 除 ia、content 和 author 以 外 的 任何 字段 都 将 被 忽略 。 当 然 ， 这 只 发 
生 在 blog 索 引 的 article 类 型 中 。 


2.2.2 索引 结构 映射 


模式 映射 (schema mapping， 或 简称 映射 ) 用 于 定义 索引 结构 。 你 可 能 还 记得 ， 每 个 索引 可 EE 
以 有 多 种 类 型 , 但 现在 会 为 了 简单 起 见 我 们 只 专注 一 个 类 型 。 假 设想 创建 一 个 保存 博客 帖子 数据 
的 posts 索 引 。 它 可 以 具有 以 下 结构 : 








口 唯一 标识 符 ; 
口 名 称 ; 

口 发 布 日 期 ; 
口 内 容 。 


在 Elasticsearch 中 ， 映 射 在 文件 中 以 JSON 对 和 象 传送 。 所 以 ,创建 一 个 映射 文件 来 匹配 上 述 需 
求 ， 称 之 为 posts.json。 其 内 容 如 下 : 


{ 


"mappings": { 





"post": { 
"properties": { 
"id": {"type":"long", "store":"yes", 
preciston Step™ .OO™. 3, 
"name": {"type":"string", "store":"yes", 
"index":"analyzed" }, 
"published": {"type":"date", "store":"yes", 
"precision step":"0" }, 
"contents": {"type":"string", "store":"no", 


"index":"analyzed" } 
} 
} 
} 
} 
为 使 用 上 述 文件 创建 posts 索 引 ， 运行 以 下 命令 (假设 我 们 的 映射 存储 在 posts.json 文 件 中 ): 


Curl -XPOST '‘'http://localhost:9200/posts' -Q @posts.json 
| 注意 ， 你 可 以 把 映射 存储 成 你 想 要 的 任何 文件 名 。 ] 


同样 ， 顺 利 的 话 ， 可 以 看 到 如 下 响应 : 


{"acknowledged":true} 
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现在 ， 有 了 索引 结构 ， 可 以 索引 我 们 的 数据 。 休 息 一 下 ， 先 来 讨论 postsjson 文 件 的 内 容 。 


1. 类 型 定义 

可 以 看 到 ，posts.json 文 件 内 容 是 个 JSON 对 象 ， 因 此 它 被 大 括号 括 起 来 (了解 更 多 关于 JSON 
的 信息 ， 请 参看 http://www.json.org/ )。 上 述 文件 中 的 所 有 类 型 定义 都 能 套 在 mappings 对 象 中 。 
你 可 以 在 mappings 的 JSON 对 象 内 定义 多 种 类 型 。 在 在 我 们 的 例子 中 ， 只 有 单一 的 post 类 型 。 
但 如 果 还 要 包括 user 类 型 ， 文 件 将 如 下 所 示 : 





{ 
"mappings": { 
"post"s { 
"properties": { 
“id"s { "type "Long";y "store": "yes™, 
"Brecision step"s"0" }, 
"name": { "type":"string", "store":"yes", 
"index":"analyzed" }, 
"published": { "type":"date", "store":"yes", 
"Drecision steB™ 0 }; 
"contents": { "type":"string", "store":"no", 
"index":"analyzed" } 
} 
} 
"user": { 
"properties": { 
"id vtvype “Lond; vstore vs yes™, 
“precision step™: "0 3 
"name": { "type":"string", "store":"yes", 
"index":"analyzed" } 
} 
} 
} 
} 


2. 字段 
每 种 类 型 由 一 组 属性 定义 , 也 就 是 定义 在 properties 对 象 中 的 字段 。 先 集中 在 单个 字段 上 ， 
如 contents 字 段 ， 其 完整 定义 如 下 所 示 : 





"contents": { "type":"string", "store":"yes", "index":"analyzed" } 


它 由 字段 的 名 称 开 始 ， 上 述 例子 中 是 contents。 名 称 后 面 ， 使 用 一 个 对 象 指定 该 字段 的 行 
为 。 我们 所 用 字段 的 类 型 有 特定 的 属性 ,下 一 节 将 讨论 它们 。 当 然 ， 如果 单 一 类 型 拥有 多 个 字段 
(这 是 常见 情况 )， 记 得 用 到 号 将 它们 隔 开 。 

3. 核心 类 型 

每 个 字段 类 型 可 以 指定 为 Elasticsearch 提 供 的 一 个 特定 核心 类 型 。Elasticsearch 有 以 下 核心 类 型 。 




















中 


口 string: 字符 串 ; 
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口 number: 数字 ; 

口 date: 日 期 ; 

口 boolean: 布尔 型 ; 
口 pinary: 二 进 制 。 


现在 来 讨论 Elasticsearch 中 可 用 的 每 个 核心 类 型 ， 以 及 它们 用 来 定义 行为 的 
(1) 公共 属性 
在 继续 描述 所 有 核心 类 型 之 前 , 先 讨 论 一 些 可 用 来 描述 所 有 类 型 ( 二进制 除外 ) 的 公共 属性 。 


口 index_name: 该 属性 定义 将 存储 在 索引 中 的 字段 名 称 。 若 未 定义 ,字段 将 以 对 象 的 名 字 

来 命名 。 

D index: 可 设置 值 为 analyzed 和 no。 男 外 ， 对 基于 字符 串 的 字段 ， 也 可 以 设置 为 
not_analyzed。 如 果 设 置 为 analyzed, 该 字段 将 被 编 入 索引 以 供 搜索 。 如 果 设 置 为 no， 
将 无 法 搜索 该 字段 。 默 认 值 为 analyzed。 在 基于 字符 串 的 字段 中 ， 还 有 一 个 额外 的 选项 
not_analyzed。 此 设置 意味 着 字段 将 不 经 分 析 而 编 入 索引 , 使 用 原始 值 被 编 入 索引 , 在 
搜索 的 过 程 中 必须 全 部 匹配 。 索 引 属性 设置 为 no 将 使 includae_in_al1 属 性 失效 。 

D store: 这 个 属性 的 值 可 以 是 yes 或 ao， 指定 了 该 字段 的 原始 值 是 否 被 写 人 索引 中 。 默 认 
值 设 置 为 no， 这 意味 着 在 结果 中 不 能 返回 该 字段 ( 然而， 如 果 你 使 用 _source 字 段 ， 即 
使 没有 存储 也 可 返回 这 个 值 )， 但 是 如 果 该 值 编 人 索引 ， 仍 可 以 基于 它 来 搜索 数据 。 

口 boost: 该 属性 的 默认 值 是 1。 基 本 上 ， 它 定义 了 在 文档 中 该 字段 的 重要 性 。boost 的 值 

越 高 ， 字 段 中 值 的 重要 性 也 越 高 。 

口 null_value: 如 果 该 字段 并 非 索引 文档 的 一 部 分 , 此 

行为 是 忽略 该 字段 。 

口 copy_to: 此 属性 指定 一 个 字段 ， 字 段 的 所 有 值 都 将 复制 到 该 指定 字段 。 

D includae_in_al1: 此 属性 指定 该 字段 是 否 应 包括 在 _al1 字 段 中 。 默 认 情 况 下 ， 如 果 使 

用 _al1 字 段 ， 所 有 字段 都 会 包括 在 其 中 。2.4 节 将 更 详细 地 介绍 _al1 字 段 。 
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属性 指定 应 写 人 索引 的 值 。 默 认 的 
































(2) 字符 串 
字符 串 是 最 基本 的 文本 类 型 ,我 们 能 够 用 它 存储 一 个 或 多 个 字符 。 字符 串 字段 的 示例 定义 如 
下 所 示 : 
"contents" : { "type" : "string", "store"™"™ : "no", "index"™ : 
"analyzed" } 
除了 公共 属性 ， 基 于 字符 串 的 字段 还 可 以 使 用 以 下 属性 。 


口 term_vector : 此 属性 的 值 可 以 设置 为 ao (默认 值 )、yes、 








with offsets 、 


with positions 和 wi 














th_positions_offsets。 它 定义 是 否 要 计算 该 字段 的 Lucene 词 











向 量 ( term vector )。 如 果 你 使 用 高 亮 ， 那 就 需要 计算 这 个 词 向 量 。 
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口 omit_norms: 该 属性 可 以 设置 为 true 或 false。 对 于 经 过 分 析 的 字符 串 字 段 ， 默认 值 为 
false, 而 对 于 未 经 分 析 但 已 编 和 人 索引 的 字符 串 字 段 , 默认 值 设置 为 Lrue。 当 属性 为 true 
时 ， 它 会 禁用 Lucene 对 该 字段 的 加 权 基 准 计 算 ( norms calculation )， 这 样 就 无 法 使 用 索引 
期 间 的 加 权 ， 从 而 可 以 为 只 用 于 过 滤器 中 的 字段 节省 内 存 ( 在 计算 所 述 文件 的 得 分 时 不 
会 被 考虑 在 内 )。 

口 analyzer: 该 属性 定义 用 于 索引 和 搜索 的 分 析 器 名 称 。 它 默认 为 全 局 定义 的 分 析 器 名 称 。 

D jndex_analyzer: 该 属性 定义 了 用 于 建立 索引 的 分 析 器 名 称 。 

口 search_analyzer: 该 属性 定义 了 的 分 析 器 ， 用 于 处 理发 送 到 特定 字段 的 那 部 分 查询 字 

符 串 。 

口 norms .enabled: 此 属性 指定 是 否 为 字段 加 载 加 权 基准 (norms )。 默 认 情 况 下 ， 为 已 分 

析 字 段 设置 为 true (这 意味 着 字段 可 加 载 加 权 基 准 )， 而 未 经 分 析 字 段 则 设置 为 false。 

口 norms .Ioading: 该 属性 可 设置 eager 和 1lazy。 第 一 个 属性 值 表示 此 字段 总 是 载 人 加 权 

基准 。 第 二 个 属性 值 是 指 只 在 需要 时 才 载 人 。 

口 position_offset_gap: 此 属性 的 默认 值 为 0， 它 指定 索引 中 在 不 同 实例 中 具有 相同 名 
称 的 字段 的 差距 。 若 想 让 基于 位 置 的 查询 ( 如 短语 查询 ) 只 与 一 个 字段 实例 相 匹配 ， 可 
将 该 属性 值 设 为 较 高 值 。 

口 index_options: 该 属性 定义 了 信息 列表 (postings list ) 的 索引 选项 ( 2.2.4 节 将 详细 讨 
论 ), 可 能 的 值 是 docs ( 仅 对 文档 编号 建立 索引 )，freqs ( 对 文档 编号 和 词 频 建立 索引 )， 
positions (对 文档 编号 、 词 频 和 它们 的 位 置 建立 索引 )，offsets ( 对 文档 编号 、 词 频 、 
它们 的 位 置 和 偏 移 量 建立 索引 )。 对 于 经 分 析 的 字段 ， 此 属性 的 默认 值 是 positions， 对 
于 未 经 分 析 的 字段 ， 默 认 值 为 aocs。 

口 ignore_above: 该 属性 定义 字段 中 字符 的 最 大 值 。 当 字段 的 长 度 高 于 指定 值 时 ， 分 析 器 
会 将 其 忽略 。 


(3) 数值 


这 一 核心 类 型 汇集 了 所 有 适用 的 数值 字段 类 型 。Elasticsearch 中 可 使 用 以 下 类 型 ( 使 用 type 
属性 指定 )。 


口 pyte: 定义 字 节 值 ， 例 如 1。 

口 short: 定义 短 整 型 值 ， 例 如 12。 

口 integer: 定义 整 型 值 ， 例 如 134。 

口 long: 定义 长 整 型 值 ， 例 如 123456789。 
口 float: 定义 浮 点 值 ， 例 如 12.23。 

口 dgouble: 定义 双 精 度 值 ， 例 如 123.45。 
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avase/tutorial/java/nutsandbolts/datatypes.html。 


| 你 可 以 在 如 下 链接 中 了 解 更 多 所 提 到 的 Java 类 型 : http://docs.oracle.com/ 


数值 类 型 字段 的 定义 如 下 所 示 : 

"price™" : { "type" : "float", "store" : "yes", "precision step" : "4" } 

除了 公共 属性 ， 以 下 属性 也 适用 于 数值 字段 。 

口 precision_step: 此 属性 指定 为 某 个 字段 中 每 个 值 生成 的 词 条 数 。 值 越 低 ， 产 生 的 词 
条 数 越 高 。 对 于 每 个 值 的 词 条 数 更 高 的 字段 ， 范 围 查询 ( range query ) 会 更 快 , 但 索引 会 
稍微 大 点 ， 黑 认 值 为 4。 

口 ignore_malformed: 此 属性 值 可 以 设 为 true 或 false。 默 认 值 是 false。 知 要 忽略 格 
式 错误 的 值 ， 则 应 设置 属性 值 为 true。 

(4) 布尔 值 


布尔 值 核心 类 型 是 专 为 索引 布尔 值 ( true 或 false ) 设计 的 。 基 于 布尔 值 类 型 的 字段 定义 如 
下 所 示 : 


















































"allowed" : { "type" : "boolean", "store": "yes" } 
(5) 二 进 制 


二 进 制 字段 是 存储 在 索引 中 的 二 进 制 数据 的 Base64 表 示 , 可 用 来 存储 以 二 进 制 形式 正常 写 和 人 
的 数据 ， 例 如 图 像 。 基 于 此 类 型 的 字段 在 默认 情况 下 只 被 存储 ， 而 不 索引 ， 因 此 只 能 提取 ， 但 无 
法 对 其 执行 搜索 操作 。 二 进 制 类 型 只 支持 indqex_name 属 性 。 基 于 binary 字 段 的 字段 定义 如 下 
所 示 : 

















"image" : { "type" : "binary" } 

(6) 日 期 

日 期 核心 类 型 被 设计 用 于 日 期 的 索引 。 它 遵循 一 个 特定 的 、 可 改变 的 格式 ,并 默认 使 用 UTC 
保存 。 


能 被 Elasticsearch 理 解 的 默认 日 期 格式 是 相当 普遍 的 ， 它 允许 指定 日 期 ， 也 可 指定 时 间 ， 例 
如 ，2012-12-24T12:10:22。 基 于 日 期 类 型 的 字段 的 示例 定义 如 下 所 示 











"published" : { "type" : "date", "store" : "yes"，"Eormat" : 
"YYYY-mm-dd" } 


使 用 上 述 字段 的 示例 文档 如 下 所 示 : 
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{ 
"name" : "Sample document", 
"published" : "2012-12-22" 
} 


除了 公共 属性 ， 日 期 类 型 的 字段 还 可 以 设置 以 下 属性 。 














口 format: 此 属性 指定 日 期 的 格式 。 默认 值 为 aateoptionalTime。 对 于 格式 的 完整 列表 ， 


请 访 问 http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/mapping-date- 





ormat.html。 
D precision_ step: 此 属性 虽 定 在 该 字段 中 的 每 个 值 生成 的 词 条 数 。 该 值 越 低 ， 产生 的 
词 条 数 越 高 ， 从 而 范围 查询 的 速度 越 快 (但 索引 大 小 增加 )。 默 认 值 是 4。 
口 ignore_malformed: 此 属性 值 可 以 设 为 true 或 false， 默 认 值 是 false。 若 要 忽略 格 
式 错误 的 值 ， 则 应 设置 属性 值 为 true。 
4. 多 字段 
有 时 候 你 希望 两 个 字段 中 有 相同 的 字段 值 ， 例 如 ， 一 个 字段 用 于 搜索 ， 一 个 字段 用 于 排序 ; 
或 一 个 经 语言 分 析 器 分 析 ， 一 个 只 基于 空白 字符 来 分 析 。Elasticsearch 允 许 加 入 多 字段 对 象 来 折 
展 字 段 定义 ， 从 而 解决 这 个 需求 。 它 允许 把 几 个 核心 类 型 映射 到 单个 字段 ， 并 逐个 分 析 。 例 如 ， 
想 计算 切面 并 在 name 字 段 中 搜索 ， 可 以 定义 以 下 字段， 


















































"name": { 
"type" 2 string" 这 
"fields": { 
"facet": { "type" : "string", "index": "not analyzed" } 


} 
} 


上 述 定义 将 创建 两 个 字段 : 我 们 将 第 一 个 字段 称 为 name， 第 二 个 称 为 name .facet。 当 然 ， 
你 不 必 在 索引 的 过 程 中 指定 两 个 独立 字段 ， 指 定 一 个 name 字 段 就 足够 了 。Elasticsearch 会 处 理 余 
下 的 工作 ， 将 该 字段 的 数值 复制 到 多 字段 定义 的 所 有 字段 。 


5. IP 地 址 类 型 


Elasticsearch 添 加 了 了 P 字 段 类 型 ,以 数字 形式 简化 IPv4 地 址 的 使 用 。 此 字段 类 型 可 以 帮 搜 索 作 
为 IP 地 址 索引 的 数据 、 对 这 些 数 据 排序 ， 并 使 用 IP 值 做 范围 查询 。 


基于 IP 地 址 类 型 的 字段 示例 定义 如 下 所 示 : 




















"address" : { "type" : "ip", "store" : "yes" } 

除 公共 属性 外 ,IP 地 址 类 型 的 字段 还 可 以 设置 precision_step 属 性 。 该 属性 指定 了 字段 中 
的 每 个 值 生成 的 词 条 数 。 值 越 低 , 词 条 数 越 高 。 对 于 每 个 值 的 词 条 数 更 高 的 字段 ,范围 查询 会 更 
快 ， 但 索引 会 稍微 大 点 ， 默 认 值 为 4。 
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使 用 上 述 字段 的 示例 文档 如 下 所 示 : 
{ 
BGA 3 “Tom PPO", 
"address" : "192.,168.2.123”" 
} 
6. token_count 类 型 
token c ount 字 段 类 型 允许 存储 有 关 索 3 | 的 字数 信息 , 而 不 是 存储 及 检索 该 字段 的 文本 。 它 
接受 与 numbezr 类 型 相同 的 配置 选项 ， 此 外 ， 还 可 以 通过 analyzezr 属 性 来 指定 分 析 器 。 


基于 token_count 类 型 的 字段 示例 定义 如 下 : 








"address count" : { "type" : "token count", "store" : "yes" } 


7. 使 用 分 析 器 


正如 我 们 提 到 的 那样 ， 对 于 字符 串 类 型 的 字段 ， 可 以 指定 Elasticsearch 应 该 使 用 哪个 分 析 髓 。 
回想 第 1 章 的 内 容 ， 分 析 器 是 一 个 用 于 分 析 数 据 或 以 我 们 想 要 的 方式 查询 数据 的 工具 。 例 如 ， 用 
空格 和 小 写字 符 把 单词 隔 开 时 ， 不 必 担 心 用 户 发 送 的 单词 是 小 写 还 是 大 写 。Elasticsearch 使 我 们 
能 够 在 索引 和 查询 时 使 用 不 同 的 分 析 器 ， 并 且 可 以 在 搜索 过 程 的 每 个 阶段 选择 处 理 数 据 的 方式 。 
使 用 分 析 器 时 ， 只 需 在 指定 字段 的 正确 属性 上 设置 它 的 名 字 ， 就 这 么 简单 。 


(1) 开 箱 即 用 的 分 析 器 
Elasticsearch 人 允许 我 们 使 用 众多 默认 定义 的 分 析 器 中 的 一 种 。 如 下 分 析 器 可 以 开 箱 即 用 。 
口 standard: 方便 大 多 数 欧洲 语言 的 标准 分 析 器 ( 关于 参数 的 完整 列表 , 请 参阅 http://www. 


lasticsearch.org/guide/en/elasticsearchreference/current/analysis-standard-analyzerhtml )。 

D simple: 这 个 分 析 顺 基于 非 字母 字符 来 分 离 所 提供 的 值 ， 并 将 其 转换 为 小 写 形式 。 

D whitespace: 这 个 分 析 器 基于 空格 字符 来 分 离 所 提供 的 值 。 

口 stop: 这 个 分 析 需 类 似 于 simple 分 析 器 ， 但 除了 simple 分 析 顺 的 功能 ， 它 还 能 基于 所 
提供 的 停 用 词 (stop word ) 过 滤 数 据 ( 参数 的 完整 列表 ， 请 参阅 http://www.elasticsearch. 
rg/guide/en/elasticsearch/reference/current/analysis-stop-analyzer.html )。 

口 keyword: 这 是 一 个 非常 简单 的 分 析 器 ， 只 传人 提供 的 值 。 你 可 以 通过 指定 字段 为 

not_analyzed 来 达到 相同 的 目的 。 

D pattern: 这 个 分 析 器 通过 使 用 正则 表达 式 灵活 地 分 离 文 本 ( 参数 的 完整 列表 ， 请 参阅 
http:/www.elasticsearch.org/guide/en/elasticsearch/reference/current/analysis-pattern-analyzer. 
html )。 

口 language: 这 个 分 析 器 旨 在 特定 的 语言 环境 下 工作 。 该 分 析 咒 所 支持 语言 的 完整 列表 可 参 

考 http:/www.elasticsearch.org/guide/en/elasticsearch/reference/current/analysis-lang-analyzer. tml。 
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口 snowbal1: 这 个 分 析 器 类 似 于 standardq 分 析 器 ， 但 提供 了 词 干 提取 算法 ( stemming 
algorithm ， 参 数 的 完整 列表 请 参阅 http://www.elasticsearch.org/guide/en/elasticsearch/ 


eference/current/analysis-snowball-analyzerhtml )。 


词 干 提取 (stemming ) 是 还 原 属 折 词 和 派生 词 至 其 基本 形式 的 过 程 。 这 种 方 
、 法 缩减 了 字数 ， 例 如 ， 对 cars 和 car 这 两 个 单词 ， 词 干 提 取 器 ( stemmer， 词 干 提取 
\ 太 人 算法 的 一 种 实现 ) 产生 一 个 词 于 car。 案 引 完成 后 ， 在 查询 任 一 单词 时 ， 包 含 这 些 
词 的 文档 都 会 被 匹配 。 如 果 不 做 词 干 提取 ， 只 有 用 cars 查 询 时 ， 包 含 “cars” 的 文 
档 才 会 被 匹配 。 


(2) 定义 自己 的 分 析 器 


除了 前 面 提 到 的 分 析 器 ，Elasticsearch 还 允许 我 们 定义 新 的 分 析 器 ， 而 无 需 编写 Java 代 码 。 为 
此 ， 需 要 在 映射 文件 中 加 入 settings 节 ， 它 包含 Elasticsearch 创 建 索 引 时 所 需要 的 有 用 信息 。 下 
面 演 示 了 如 何 自 定 义 settings 节 : 


"settings" : { 
"index" : { 
"analysis": { 
"analyzer": { 
"en": { 
"tokenizer": "standard", 
"Filter™s [ 
"SeiifoLlding”: 
"lowercase", 
"ourEnglishFilter" 
] 
} 





























} 
"filter™s { 
"ourEnglishFilter": { 
"type": "kstem" 
} 
} 
} 
} 
} 


我 们 指定 一 个 新 的 名 为 en 的 分 析 器 。 每 个 分 析 絮 由 一 个 分 词 融 和 多 个 过 滤 带 构成 。 默认 过 滤 
器 和 分 词 器 的 完整 列表 可 以 参阅 http://www.elasticsearch.org/guide/en/elasticsearch/reference/ 
urrent/analysis.html。 我 们 的 en 分 析 器 包括 standargd 分 词 器 和 三 个 过 滤器 : 默认 情况 下 可 用 的 
asciifolding 和 ]owercase 3 以 及 一 个 自 定义 的 ourEnglishFilter。 

要 想 定义 过 滤器 ， 需 要 提供 它 的 名 称 、 类 型 以 及 该 过 滤 需 类 型 需要 的 任意 数量 的 附加 参数 。 
Elasticsearch 中 可 用 过 滤器 类 型 的 完整 列表 可 以 参考 http://www.elasticsearch.org/guide/en/ 
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elasticsearch/reference/current/analysis.html。 此 列表 不 断 更 新 ， 所 以 这 里 不 予 讨论 。 
所 以 ， 定义 了 分 析 器 的 映射 文件 最 终 将 如 下 所 示 : 


{ 
nsettingesr, 3 4 
"index" : { 
"analysis": { 
"analyzer": { 











"en": { 
"tokenizer": "standard", 
"filter": [ 
nascLiifolding.; 
"lowercase", 
"ourEnglishFilter" 
] 
} 
ss 
"filter": { 
"ourEnglishFilter": { 
"type": "kstem" 
} 
} 
} 
) 
) 
"mappings" : { 
most rn 3 
"properties" : { 
rad": {( type™ Tt Lonyg™, vetbore™ ss "yes™, 
"Drecision Step 二 "0" 二， 
"name": { "type" : "string", "store" : "yes", "index" 
"analyzed", "analyzer": "en" } 
} 
} 
} 


} 


可 以 通过 Analyze API 了 解 分 析 器 的 工作 情况 http:/www.elasticsearch.org/guide/en/elasticsearch/ 
reference/current/indices-analyze.html )。 例 如 下 面 的 命令 : 














Curl -XGET 'localhost:9200/posts/ analyze?pretty&field=post.name' -d 
'robots cars' 


上 面 的 命令 要 求 Elasticsearch 展 示 为 post 类 型 和 它 的 name 字 有 段 定义 的 分 析 器 对 指定 短语 
( robots cars ) 的 分 析 内 容 ， 得 到 的 响应 如 下 : 


{ 

"tokens" : [ { 
"token" : "robot", 
"start offset" : 0, 
"end offset" : 6， 
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"type™" : "<ALPHANUM>", 
"position" : 1 

}, 1{ 
"token™" : "car", 
"start_ offset" : 7, 
"end offset" : 11, 
"type™" : "<ALPHANUM>", 
"position" : 2 

}] 

} 


可 以 看 到 , 短语 robots cars 被 分 离 成 两 个 词 条 。 另 外 , 单词 robots 更 改 成 robot，cars 更 改 成 car。 

(3) 分 析 器 字段 

可 以 通过 分 析 器 字段 (_analyzer ) 指定 一 个 字段 , 该 字段 的 值 将 作为 字段 所 属 文档 的 分 析 
器 名 称 。 试想 一 下 ,你 有 个 软件 检测 写 和 人 文档 的 语言 ,并 在 文档 的 language 字 有 段 存储 相关 信息 。 
此 外 ， 你 想 使 用 这 些 信息 来 选择 合适 的 分 析 器 。 为 此 ， 只 需 添加 以 下 几 行 代码 到 你 的 映射 文件 : 


"_analyzer" : { 
"path" : "language" 
} 


包含 上 述 信息 的 映射 文件 如 下 所 示 : 








{ 
"mappings" : { 
"post" : { 

"_analyzer" : { 
"path" : "language" 

} 

"properties" : { 
vd £ Ttvee. "Loong; "Store, 3 "yes"., 
"preclision step™ © VO. 3 
"name": { "type" : "string", "store" : "yes", 
"index" : "analyzed" }, 
"Language": { "type" : "string", "store" : "yes", 
"index" : "not_ analyzed"} 


} 
} 
} 
} 


需要 注意 的 是 ,应 该 定义 一 个 与 1anguage 字 段 中 提供 的 值 一 样 的 分 析 器 , 否则 索引 将 会 失败 。 

(4) 默认 分 析 器 

关于 分 析 器 , 还 有 一 点 需要 说 明 ， 即 在 没有 定义 分 析 器 的 情况 下 , 应 指定 在 默认 情况 下 使 用 
的 分 析 器 。 这 与 在 映射 文件 中 的 setting 部 分 配置 自 定 义 分 析 器 的 方式 相同 , 但 应 使 用 aefault 
关键 字 来 命名 ， 而 不 是 为 分 析 器 指定 一 个 自 定义 名 称 。 因 此 , 为 了 把 前 面 定 义 的 分 析 器 作为 默认 
分 析 器 ， 可 以 将 en 分 析 带 修改 为 下 面 这 样 : 
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"settings" : { 
"index" : { 
"analysis": { 
"analyzer": { 
"default": { 
"tokenizer": "standard", 
"filter": [ 
"asciifolding", 
"lowercase", 
"ourEnglishFilter" 


] 








} 
} 
"filter": { 

"ourEnglishFilter": { 

"type": "kstem" 





2.2.3 不 同 的 相似 度 模型 


2012 年 发 布 Apache Lucene 4.0 后 ,该 全 文 检索 库 的 所 有 用 户 便 可 以 修改 默认 的 基于 TF/IDF 的 
算法 (第 1 章 中 提 到 过 )。 但 这 不 是 唯一 的 变化 , Lucene 4.0 还 附加 了 相似 度 模型 ( similarity model )， 
允许 在 文档 中 使 用 不 同 的 评分 公式 。 

1. 设 定 每 个 字段 的 相似 度 模型 


自 Elasticsearch 0.90 版 本 开始 ， 就 可 以 为 映射 文件 中 的 每 个 字段 设置 不 同 的 相似 度 模型 。 例 
如 ， 使 用 如 下 简单 的 映射 来 索引 blog posts: 











{ 
"mappings" : { 
"Dost wn 
"properties" : { 
id 5 { "type™ : "LoOng”, "Store™ £ “yes, 
"precisionm steB™ : ™0O™ }, 
"name" : { "type" : "string", "store" : "yes", "index" : 
"analyzed" }, 
"Gontents" % { "type™ 人 “string", “store™ % GO" 
"index" : "analyzed" } 
} 
} 
} 
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为 此 ,可 在 name 字 段 和 contents 字 段 中 使 用 BM25 














相似 度 模型 ,这 需要 扩展 我 们 的 字段 定义 ， 





并 添加 similarity 属 性 以 及 所 选择 的 similarity 名 称 的 值 。 修改 映射 如 下 : 





€ 
"mappings" : 
Hy 
"properties" : { 
vid ww VEVDG™ 
"preclision step™ s:$ “OO. 3}; 
"name" : { "type" : "string", 
"index" : "analyzed", 
"contents" : { "type" : 
"index" : "analyzed", 


{ 


"ong", "Store™ : 


"string", "st 
} 
} 
} 
} 


"store™ : 
"similarity" : 


"similarity" : 


"yes", 


wm Yes nm - 
"BM25" 
ore"™ : 
"BM25" 


}, 
"no", 
} 


仅 此 而 已 ， 无需 再 添加 别 的 。 做 出 上 述 修改 后 ，Lucene Apache 将 为 字段 name 和 contents 








使 用 BM25 相 似 度 模型 计算 得 分 因子 。 
2. 可 用 的 相似 度 模型 
现 有 如 下 三 种 相似 度 模 


口 Okapi BM25 模 型 : 这 种 相似 度 模 





1 
二 让 























基于 概率 模 


型 ， 概 率 模型 估算 根据 指定 查询 找到 指定 











文档 的 概率 。 为 了 在 Elasticsearch 中 使 用 这 种 相似 度 模型 ， 


Okapi BM25 相 似 度 模 型 在 处 理 简 短 的 文本 文档 


重 有 损 整 体 文档 的 得 分 。 要 使 用 此 相似 度 模型 ， 


需要 将 BM25 作 为 名 称 。 据 说 
时 表现 最 佳 ， 在 这 种 文档 中 词 条 的 重复 严 


需要 设置 字段 的 similarity 属 性 为 




















口 随机 性 偏差 ( divergence from randomness ) 模型 
率 模 型 。 为 了 在 Elasticsearch 中 使 月 
差 模 型 在 处 理 类 自然 语言 文本 时 表现 良好 。 

口 信息 基础 (information-based ) 模型 : 这 是 新 推 








模型 非常 相似 。 为 了 在 Elasticsearch 中 使 用 这 种 相似 度 模 型 ， 


BM25。 这 种 相似 度 模 型 在 定义 后 立即 可 用 ， 不 需要 设置 附加 属 怕 


这 种 相似 度 模 型 ， 


[Lo 








: 这 种 相似 度 模型 基于 具有 相同 名 称 的 概 
需要 使 用 DFR 作 为 名 称 。 随 机 性 偏 











| 
EE， 








出 的 最 后 一 个 相似 度 模 型 ， 与 随机 性 仿 差 
需要 使 用 IB 作 为 名 称 。 类 似 














于 DFR 相 似 度 模 型 ， 信 息 基 础 模 ] 
(1) 配置 DFR 相 似 度 模型 


在 DFR 相 似 度 模 型 中 ,可 以 配置 pasic_model 属 改 


型 在 处 理 类 自然 语言 文本 时 表现 良好 。 











after_effect 属 性 (可 设置 为 no、b 或 1 )，normali 





FE (可 设置 为 be 、d、g、if、in 或 者 ine )， 
zation 属 性 (可 设置 为 no、h1、h2 、h3 








或 z )。 如 果 选 择 no 以 外 的 值 作 为 normalization 属 性 值 ,需要 设置 范式 化 因子 (normalization 





factor )。 所 选择 的 normalization 值 如 果 是 h1， 则 

















设置 normalization.hil.c ( 浮 点 值 ); 

















如 果 是 h2, 则 设置 normalization.h2.c( 浮 点 值 ) 如 果 是 hn3, 则 设置 hormalization.h3.c 
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( 浮 点 值 ); 如 果 是 z， 则 设置 normalization.z.z (学 点 值 ),。 例如 ， 下 面 是 相似 度 配 置 的 一 个 
示例 (把 它 放 到 映射 文件 的 settings 部 分 中 ): 


"similarity" : { 
"esserverbook dfr similarity" : { 
type” 3 DER”., 
"basic model" : "g", 
"after_effect" : "1", 
"mormalization™ 3: "hnh2", 
"normalization.h2.c" : "2.0" 
} 
} 


(2) 配置 1B 相似 度 模型 
在 IB 相 似 度 模型 中 ， 有 以 下 参数 可 供 配 置 distribution 属 性 (可 设置 为 11 或 spl1) 和 


lambda 属 性 ( 可 设置 为 af 或 ttf )。 此 外 ， 跟 DFR 相 似 度 模型 一 样 ， 可 以 选择 范式 化 因子 ， 这 里 
不 再 歼 述 。 下 面 是 一 个 配置 IB 相 似 度 模型 的 例子 (把 它 放 到 配置 文件 的 settings 部 分 ): 





























meimilarityr 3 
"esserverbook ib similarity" : { 
Eyne™ 3 TB 
"disteilutionmr "LE, 
"Jambda™ : "df"; 
ormalization™ 3 vs, 
"normalization.z.2z" : "0.25" 


相似 度 模型 是 一 个 相当 复杂 的 话题 , 需要 一 整 章 来 正确 地 描述 它 。 如 果 你 有 
9 兴趣 ， 请 参阅 Mastering ElasticSearch ， 或 到 http://elasticsearchserverbook.com/ 
elasticsearch-0-90-similarities/ 阅 读 更 多 细节 。 


2.2.4 ”信息 格式 

Apache Lucene 4.0 的 显著 变化 之 一 是 ,可 以 改变 索引 文件 写 人 的 方式 。Elasticsearch 利 用 了 此 
功能 ， 可 以 为 每 个 字段 指定 信息 格式 。 有 时 你 需要 改变 字段 被 索引 的 方式 以 提高 性 能 ， 比 如 为 了 
使 主键 查找 更 快 。 


Elasticsearch 中 的 信息 格式 如 下 所 示 。 


D aefault: 没有 明确 定义 格式 时 ， 此 默认 信息 格式 将 被 使 用 。 它 提供 了 实时 的 对 存储 字 
段 和 词 向 量 的 压缩 。 如 果 你 想 知道 压缩 的 内 容 ， 请 参阅 http:/solrplen/2012/11/19/solr-4- 
1-stored-fields-compression/。 
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D pulsing: 此 信息 格式 将 高 基数 字段 (high cardinality field ) 的 信息 列表 编码 为 词 条 和 矩阵 ， 
这 让 Lucene 检 索 文 档 时 可 以 少 执行 一 个 搜索 。 对 高 基数 字段 使 用 此 信息 格式 可 以 加 快 此 
字段 的 查询 速度 。 

D airect: 此 信息 格式 可 在 读 操 作 过 程 中 将 词 条 加 载 到 和 矩阵 中 。 这 些 和 矩阵 未 经 压缩 保存 在 
内 存 中 。 这 种 信息 格式 可 以 提升 常用 字段 的 性 能 ,但 是 使 用 时 应 谨慎 ， 因 为 它 属于 内 存 
密集 型 ， 词 条 和 信息 矩阵 都 存储 于 内 存 中 。 请 记 住 ， 因 为 所 有 的 词 条 都 存储 在 比特 组 里 ， 
所 以 每 个 段 需要 多 达 2.1 GB 的 内 存 。 

口 memory: 此 信息 格式 正如 它 的 名 字 所 示 ， 将 所 有 的 数据 写 人 磁盘 ， 但 需要 用 到 一 个 名 为 
FST (Finite State Transducer， 有 限 状 态 传 感 器 ) 的 结构 读 取 词 条 和 信息 列表 到 内 存 中 。 
你 可 以 在 http://blog.mikemccandless.com/2010/12/using-finite-state-transducers-in.html 上 
Mike McCandless 的 帖子 中 了 解 更 多 关于 这 个 结构 的 知识 。 由 于 数据 存储 于 内 存 中 ， 这 个 
言 息 格 式 会 提升 常用 词 条 的 性 能 。 

口 bloom_default: 默认 信息 格式 的 扩展 ， 增 加 了 把 布 隆 过 滤器 (bloom filter ) 写 人 磁盘 
的 功能 。 在 读 取 过 程 中 ， 布 隆 过 滤器 被 读 取 并 存 和 内存， 以 便 非 常 快速 地 检查 给 定 的 值 
是 否 存在 。 该 信息 格式 对 于 高 基数 字段 相当 有 效 ， 比 如 主键 字段 。 如 果 你 想 知道 更 多 关 
于 布 隆 过 滤器 的 知识 ， 请 参阅 http:/en.wikipedia.org/wikiBloom filter。 此 信息 格式 除了 默 
认 格 式 的 功能 ， 还 使 用 了 布 隆 过 滤器 。 

口 ploom_pulsing: 这 是 pulsing 信 息 格式 的 扩展 ， 除 了 pulsing 格 式 的 功能 ， 还 使 用 了 
布 隆 过 滤器 。 


配置 信息 格式 


信息 格式 可 在 每 个 字段 上 设置 , 就 像 type 或 name。 为 了 把 字段 配置 成 默认 格式 以 外 的 格式 ， 
需要 添加 一 个 名 为 postings_format 的 属性 ， 将 所 选择 信息 格式 的 名 字 作 为 值 。 如 果 想 在 id 字 
段 使 用 pulsing 信 息 格 式 ， 映 射 将 如 下 所 示 : 


{ 
























































"mappings" : { 
"post" : { 
"properties" : { 


wm id" 2 { wm type wm 和 long nm FE wm store mw 2 "yes mw 
"precision step" : "0", "postings format™" : "pulsing" }, 


"name" : { "type" : "string", "store" : "yes", 
"index" : "analyzed" }, 

"contents" : { "type" : "string", "store" : "no", 
"index" : "analyzed" } 














人 基数 越 高 ， 字 段 的 重复 值 就 越 少 ， 可 选 性 越 高 。 一 一 译 者 注 
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2.2.5 ”文档 值 


文档 值 将 是 本 节 讨 论 的 最 后 一 个 字段 属性 。 文 档 值 格式 是 在 Lucene 4.0 中 引入 的 男 一 个 新 功 
能 。 它 允许 定义 一 个 给 定 字段 的 值 被 写 人 一 个 具有 较 高 内 存 效率 的 列 式 结构 ,以 便 进 行 高 效 的 排 
序 和 切面 搜索 ,使 用 了 文档 值 的 字段 将 有 专属 的 字段 数据 缓存 实例 ,无 需 像 标准 字段 一 样 倒 排 ( 以 
避免 像 第 1 章 所 描述 的 方法 一 样 存储 )。 因此, 它 使 索引 刷新 操作 速度 更 快 , 让 你 可 以 在 磁盘 上 存 
储 字段 数据 ， 从 而 节省 堆 内 存 的 使 用 。 


1. 配置 文档 值 


我 们 扩展 一 人 posts 索 引 示例 ， 增 加 一 个 votes 字 段 。 假 设 新 添加 的 字段 包含 指定 文章 的 得 
票数 量 , 并 且 我 们 希望 对 它 排序 。 因 为 需要 排序 ， 所 以 它 很 适合 使 用 文档 值 。 为 了 在 给 定 字 段 上 
使 用 文档 值 , 需要 将 doc_values_format 属 性 添加 到 其 定义 中 并 指定 其 格式 。 映射 将 如 下 所 示 : 


{ 
































"mappings" : { 
i 
"properties" : { 

rid 3 typer 5 TIOng™. “Storer 3 Tyes™, 
DEeCLSLONn Step "0 }; 

"name" : { "type" : "string", "store" : "yes", 
"index" : "analyzed" }, 

"oontents™: { type™ & "string", "store™ § "mo, 
"index" : "analyzed" }, 


"votes" : { "type" : "integer", 
"doc values format" : "memory" } 
} 
} 
} 
} 


如 你 所 见 ， 定义 非常 简单 。 来 看 看 对 于 doc_values_format 属 性 ， 有 哪些 可 以 设置 的 值 。 
2. 文档 值 格 式 
目前 有 以 下 三 种 可 用 的 doc_values_format 属 性 值 。 


口 default: 当 未 指定 任何 格式 时 ,使 用 此 默认 格式 。 此 格式 使 用 少量 内 存 而 且 性 能 良好 。 

口 sisk: 此 文档 值 格式 将 数据 存 和 磁盘， 几乎 无 需 内 存 。 然 而 ， 在 使 用 这 种 数据 结构 执行 
切面 和 排序 等 操作 时 ， 性 能 略 有 降低 。 需 要 执行 切面 或 排序 操作 ， 而 又 苦恼 于 内 存 空 间 
时 ， 可 使 用 这 种 格式 。 

D memory: 此 文档 值 格式 将 数据 存 信 内存 。 这 种 格式 中 ， 切 面 或 排序 的 功能 与 标准 倒 排 索 

引 字 段 的 功能 不 相 上 下 。 由 于 这 种 数据 结构 存储 于 内 存 中 ， 索 引 的 刷新 速度 更 快 ， 而 这 

对 快速 更 改 索引 及 缩短 索引 更 新 频率 很 有 帮助 。 
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2.3 ”批量 索引 以 提高 索引 速度 


在 第 1 章 中 ,我 们 学 习 了 如 何 将 特定 文档 添加 索引 至 Elasticsearch。 现 在 来 学 习 如 何以 更 方便 
有 效 的 方式 索引 多 个 文档 ， 而 不 是 逐个 索引 。 























2.3.1 为 批量 索引 准备 数据 


Elasticsearch 可 以 合并 多 个 请 求 至 单个 包 中 ， 而 这 些 包 可 以 单个 请 求 的 形式 传送 。 如 此 ， 可 
以 将 如 下 操作 结合 起 来 : 


口 在 索引 中 增加 或 更 换 现 有 文档 ( ingex ); 
口 从 索引 中 移 除 文档 (aelete ); 
口 当 索 引 中 不 存在 其 他 文档 定义 时 ， 在 索引 中 增加 新 文档 (create )。 

为 了 获得 较 高 的 处 理 效 率 ,选择 这 样 的 请 求 格式 。 它 假定 ,请求 的 每 一 行 包含 描 述 操作 说 明 
的 JSON 对 象 ， 第 二 行为 JSON 对 象 本 身 。 可 以 把 第 一 行 视 为 信息 行 ， 第 二 类 为 数据 行 。 唯 一 的 例 
外 是 aelete 操 作 ， 它 只 包含 信息 行 。 来 看 看 下 面 的 例子 : 





























{ "index"™: { "_index"s: “addr", “ type"s “contact", ™ id": 1 }} 
{ "name": "Fyodor Dostoevsky", "country": "RU" } 

{ "create": { "_index": "addr", "_type": "contact", "_ id": 2 }} 
{ "name": "Erich Maria Remarque", "country": "DE" } 

{ "ereate"s { "index"s "addr"; "type": “contact"; ™ id"s: 2 }} 
{ "name": "Joseph Heller", "country": "US" } 

{ "delete"s { “_ index"s "addr", ™ type": “eontact", ™ id": 4 }} 
{ "delete": { "_index": "addr", "_type": "contact", "_ id": 1 }} 








重要 的 是 , 每 一 个 文档 或 操作 说 明 放 置 在 一 行 中 ( 以 换行 符 结束 )。 这 意味 着 无 法 美化 文档 格 
式 。 批 量 索 引文 件 的 大 小 存在 限制 ， 它 被 设 定 为 100 MB， 在 Elasticsearch 配 置 文件 中 可 以 通过 
http .max_content_length 属 性 来 改变 。 这 避免 了 请 求 过 大 时 可 能 存在 的 请 求 超 时 及 内 存 问题 。 














需要 注意 的 是 , 在 一 个 批量 索引 文档 中 ,可 以 将 数据 载 入 多 个 索引 中 , 文档 
> 也 可 以 有 不 同 的 类 型 。 
2.3.2 ”索引 数据 


为 了 执行 批量 请 求 , Elasticsearch 提 供 了 _pulk 端 点 , 形式 可 以 是 /_bulk, 也 可 以 是 /index_ 
name/_bulk, 其 至 是 /index_name/type_name/_bulk。 第 二 种 和 第 三 种 形式 定义 了 索引 名 称 
和 类 型 名 称 的 默认 值 。 可 以 在 请 求 的 信息 行 中 省 略 这 些 属性 ，Elasticsearch 将 使 用 默认 值 。 

假设 已 经 在 documents.json 文 件 中 存储 了 数据 ， 可 以 运行 下 面 的 命令 将 这 些 数 据 发 送 到 


Elasticsearch: 
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Curl -XPOST '‘'localhost:9200/ bulk?pretty' --data-binary 
@documents .json 


没 必要 设置 ?pretty 参 数 。 之 前 使 用 这 个 参数 仅仅 是 为 了 方便 分 析 命 令 的 响应 。 在 这 个 例子 
中 ， 我 们 在 curl 中 使 用 --qata-binary 参 数 ， 而 不 是 使 用 -a， 这 很 重要 。 这 是 因为 标准 的 -a 
行 符 ， 正 如 前 面 所 说 的 那样 ， 换 行 符 在 解析 Elasticsearch 的 批量 请 求 内 容 时 很 重要 。 


参数 忽略 换 








现在 ， 来 看 看 由 Elasticsearch 返 回 的 响应 ; 


{ 


"took" : 139, 

"errors" : true, 

"items" : [ { 
"index" : { 


} 
}, 


"_index" : "addr", 
"type" : "contact", 
"_id" : "1", 
"_version" : 1, 
"status" : 201 


"create" : { 


} 
}, 


"_ index" : "addr", 

" type" : "contact", 
"4d" : nm2nm 

" version" : 1, 
"status" : 201 


"create" : { 


} 
}, 


"_index" : "addr", 

" type" : "contact", 

"_ id" : "2", 

"status" : 409, 

"error" : "DocumentAlreadyExistsException[[addr] [3] 
[contact] [2] : document already exists]" 


"delete" : { 


} 
}, 


"_index" : "addr", 

" type" : "contact", 
dr s a" 

" version" : 1, 
"status" : 404, 
"found" : false 


"delete" : { 


"_ index" : "addr", 
"_ type" : "contact", 
i 2 1 mn 
"_version" : 2， 
"status" : 200, 
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"found" : true 
} 
}] 

} 

正如 我 们 看 到 的 ， 每 一 个 结果 是 items 数 组 的 一 部 分 。 简 要 对 比 这 些 结果 和 输入 的 数据 : 前 
两 个 命令 indqex 和 create 执 行 得 很 顺利 ， 而 第 三 个 操作 失败 了 ， 因 为 想 用 一 个 已 经 存在 于 索引 
中 的 标识 符 来 创建 一 条 记录 。 接 下 来 的 两 个 删除 操作 都 成 功 了 。 注 意 ,其 中 第 一 个 操作 试图 删除 
一 个 不 存在 的 文档 。 可 以 看 到 ， 这 对 Elasticsearch 来 说 不 是 问题 。Elasticsearch 返 回 有 关 每 个 操作 
的 信息 ， 因 此 对 于 大 批量 请 求 ， 响 应 也 是 巨大 的 。 












































2.3.3 ”更 快 的 批量 请 求 


批量 操作 的 速度 很 快 , 但 如 果 你 想 知道 是 否 存 在 更 有 效 、 更 快 的 索引 方法 ,可 以 看 看 用 户 数 
据 报 协 议 ( User Datagram Protocol，UDP ) 的 批量 操作 。 请 注意 ， 使 用 UDP 并 不 能 保证 数据 在 与 
Elasticsearch 服 务 需 通信 的 过 程 中 不 会 丢失 。 因 此 ， 只 有 在 性 能 至 关 重 要 量 比 精确 度 还 重要 ， 并 
目 要 索引 全 部 文档 时 ， 才 考虑 使 用 它 。 

















2.4 用 附加 的 内 部 信息 扩展 索引 结构 


除了 保存 数据 的 字段 之 外 , 还 可 以 与 文档 一 道 存储 附加 的 信息 。 本 书 已 经 讨论 过 各 种 不 同 的 
映射 选项 及 可 用 的 数据 类 型 。 现 在 我 们 打算 更 详细 地 讨论 一 些 并 非 每 天 都 使 用 到 的 Elasticsearch 
功能 ， 这 些 功能 可 以 更 方便 地 处理 数据 。 








| 以 下 讨论 的 字段 类 型 应 定义 在 适当 的 类 型 级 别 上 , 它们 不 是 索引 范围 的 类 型 。 ] 


2.4.1 标识 符 字 段 


你 可 能 还 记得 ，Elasticsearch 索 引 的 每 个 文档 都 有 自己 的 标识 符 和 类 型 。 在 Elasticsearch 中 ， 
文档 存在 两 种 内 部 标识 符 。 


第 一 个 是 _uia 字 段 ， 它 是 索引 中 文档 的 唯一 标识 符 ， 由 该 文档 的 标识 符 和 文档 类 型 构成 。 
这 基本 意味 着 , 不 同类 型 的 文档 编 人 到 相同 的 索引 时 可 以 具有 相同 的 文档 标识 符 , 而 Elasticsearch 
仍 能 够 区 分 它们 。 此 字段 不 需要 任何 额外 的 设置 ， 它 总 是 被 索引 ， 但 知道 它 的 存在 是 有 好 处 的 。 


持 有 标识 符 的 第 二 个 字段 是 _iq 字 段 。 此 字段 存储 着 索引 时 设置 的 实际 标识 符 。 为 了 使 _id 字 
段 能 够 被 索引 ( 或 存储 ， 如 果 需 要 的 话 )， 需 要 在 映射 文件 中 像 设 置 任何 其 他 属性 一 样 添加 _iad 字 
段 的 定义 (但 是 ， 如 前 面 所 说 ， 应 添加 到 类 型 定义 的 主体 中 )。 所 以 ，pook 类 型 的 示例 定义 如 下 : 
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book" { 
i { 
"index": "not_ analyzed", 
"Store" » no" 
} 


"properties" 2 { 


} 
} 
} 


可 以 看 到 ， 上 述 例子 在 代码 中 指明 希望 _iq 字 段 不 经 分 析 但 要 编 和 索引， 而 且 不 希望 存储 。 


除了 在 索引 时 间 指 定 标识 符 , 也 可 从 指定 我 们 希望 从 索引 文档 的 一 个 字段 中 获取 标识 符 ( 由 
于 需要 额外 的 解析 ， 速 度 会 稍 慢 些 )。 为 此 ， 需 要 设 定 path 属 性 ， 并 将 它 的 值 设置 为 一 个 字段 名 
称 ， 该 字段 的 值 将 作为 标识 符 。 如 果 我 们 的 索引 中 含有 book_iq 字 段 ， 并 打算 使 用 它 作 为 _ia 字 
段 的 值 ， 将 上 述 映 射 文件 的 内 容 更 改 为 如 下 内 容 : 





"path": "book_ id" 
} 


"properties" : { 


} 
} 
最 后 需要 记得 一 件 事 : 当 禁 用 _igd 守 上段 时 ， 所 有 需要 文档 唯一 标识 符 的 功能 都 能 继续 工作 ， 
因为 它们 将 用 _uia 字 段 作为 代替 。 




















2.4.2 _type 字 段 

之 前 说 过 ， 在 Elasticsearch 中 每 个 文档 至 少 需要 由 它 的 标识 符 和 类 型 来 描述 。 默 认 情 况 下 ， 
文档 的 类 型 会 编 人 索引 ， 但 不 会 被 分 析 并 且 不 存储 。 如 果 想 存储 这 个 字段 ， 可 按 如 下 方式 修改 映 
射 文件 内 容 : 


{ 








"ook™ 二 六 
"type" : { 
"store" : "yes" 
js 
"properties" : { 
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} 
} 
} 


也 可 改 成 不 索引 _type 字 段 ,但 是 那样 的 话 ， 一 些 查 询 ( 例如 词 条 查询 ) 和 过 滤器 将 失效 。 








2.4.3 _all 字 上 段 


Elasticsearch 使 用 _al1 字 段 存 储 其 他 字段 中 的 数据 以 便于 搜索 。 当 要 执行 简单 的 搜索 功能 ， 
搜索 所 有 数据 (或 复制 到 _al11 字 段 的 所 有 字段 )， 但 又 不 想 去 考虑 字段 名 称 之 类 的 事情 时 ， 这 个 
字段 很 有 有 用。 默认 情况 下 ，_al1 字 段 是 启用 的 ， 包 含 了 索引 中 所 有 字段 的 所 有 数据 。 然 而 ， 这 
一 字段 使 得 索引 有 点 大 ， 且 这 并 不 总 是 必要 的 。 可 以 完全 禁用 _al1 字 段 ， 或 排除 某 些 字段 。 为 
了 在 _al1 字 段 不 包括 某 个 特定 字段 ， 我 们 将 使 用 本 章 前 面 讨论 的 include_in_al1 属 性 。 要 完 
全 关闭 _al1 字 段 功能 ， 可 修改 映射 文件 ， 如 下 所 示 : 


{ 























"Book™ 5 4 
= : { 
"enabled" : "false" 
} 


"roperties" i 


} 
} 
} 


除了 enabled 属 性 ，_all 字 上 段 还 支持 以 下 属 ' 





河 
虑 











口 store 
口 term vector 
D analyzer 


D index_ analyzer 





DQ search analyzer 


有 关上 述 属性 的 信息 ， 请 参阅 2.2 节 。 





2.4.4 _source 字 段 


_source 字 上段 可 以 在 生成 索引 过 程 中 存储 发 送 到 Elasticsearch 的 原始 JSON 文 档 。 上 默认 情 况 下 ， 
_source 字 段 会 被 开启 ， 因 为 部 分 Elasticsearch 功 能 依赖 于 这 个 字段 ( 如 局 部 更 新 功能 )。 除 此 之 


图 灵 社 区 会 员 打 顺 顺 (lvshun@live.cn) 专 享 尊重 版 权 





2.4 用 附加 的 内 部 信息 扩展 索引 结构 53 





外 ， 当 某 字段 没有 存储 时 ，_source 字 段 可 用 作 高 亮 功 能 的 数据 源 。 但 如 果 不 需 要 这 样 的 功能 ， 
可 禁用 _source 字 段 避 免 存 储 开 销 。 为 此 ， 需 设置 source 对 象 的 enabled 属 性 值 为 false， 如 
下 所 示 : 


{ 








GE 
"_source" : { 
"enabled" : false 
js 
"properties" : { 


| 
} 

} 

排除 字段 和 包含 字段 


还 可 以 告诉 Elasticsearch 我 们 希望 从 _source 字 段 中 排除 哪些 字段 ， 包 含 哪 些 字段 。 可 以 通 
过 在 _source 字 上 段 定 义 中 添加 includes 或 excludes 属 性 来 实现 。 如 果 想 从 _source 中 排除 
author 路 径 下 的 所 有 字段 ， 映 射 将 如 下 所 示 : 
{ 
"mook" : { 


"_source" : { 
"excludes" : [ "author.*" ] 








} 


"properties" : { 


2.4.5 _index 字 上 段 


Elasticsearch 人 允许 我 们 存储 文档 相关 索引 的 信息 。 可 以 通过 使 用 内 部 _indaex 字 段 做 到 这 一 
点 。 试 想 一 下 ,我 们 每 天 创建 索引 ， 对 索引 使 用 别名 ， 且 想 知道 返回 文档 存储 在 哪个 索引 中 。 在 
这 种 情况 下 ，_index 字 段 可 以 帮助 确定 文档 源 自 哪 个 索引 。 


默认 情况 下 ，_ingex 字 段 是 禁用 的 。 为 了 启用 它 ， 需要 设置 _index 对 象 的 enabled 属 性 为 
true， 如 下 所 示 : 
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"enabled" : true 
} 


"properties" : { 


2.4.6 _size 字 段 














默认 情况 下 ，_size 字 段 未 启用 ， 这 使 我 们 能 够 自动 索引 _source 字 段 的 原始 大 小 ， 并 与 文 


件 一 道 存 储 。 如 果 需 要 启用 _size 字 段 ， 则 需 添加 _size 属 性 并 设置 snableq 属 性 值 为 true。 此 
外 ， 还 可 以 通过 使 用 通常 的 store 属 性 设置 _size 字 段 使 其 被 存储 。 因 而 ， 如 果 和 希望 我 们 的 映射 

















包括 _size 字 段 并 被 存储 ， 需 要 把 映射 文件 修改 成 下 面 这 样 : 


€ 
"book" ‘: 攻 
Sizer $ 4 
"enabled": true, 
wm store"™ 2 "yes wm 
} 


"roperties" i 于 


2.4.7 _timestamp 字 上 段 





默认 情况 下 ， 禁 用 的 _timestamp 字 段 允 许 文 档 在 被 索引 时 存储 。 启 用 此 功能 很 简单 ， 


添加 _timestamp 到 映射 文件 并 将 enapbled 属 性 设置 为 true， 如 下 所 示 : 


{ 
"book" £ 1 
" timestamp" : { 
"enabled" : true 
} 


"properties" : { 
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默认 情况 下 ，_timestamp 字 段 未 经 分 析 编 人 索引 ， 但 不 保存 。 你 可 以 改变 这 两 个 参数 以 满 
足 实 际 需求 。 除 此 之 外 ，_timestamp 字 段 与 普通 的 日 期 字段 一 样 ， 因 而 可 以 像 处 理 寻常 的 、 基 
于 日 期 的 字段 一 样 改变 它 的 格式 。 为 此 ， 只 需要 用 所 需 的 格式 指定 format 属 性 (请 参阅 本 章 前 
面 关 于 “日 期 ”核心 类 型 的 描述 ， 以 了 解 更 多 关于 日 期 格式 的 内 容 )。 

男 外 ， 可 以 添加 path 属 性 ， 并 将 其 设置 为 某 字段 的 名 称 来 获取 日 期 ， 而 不 是 在 文件 检索 过 
程 中 自动 创建 _timestamp 字 段 。 因 此 ， 若 希望 timestamp 字 段 基 于 yeazr 字 段 ， 可 修改 映射 文 
件 ， 如 下 所 示 : 

{ 




















"oo 3 
" timestamp" : { 
"enabled" : true, 
"path" 2 "year" i 
"ormat". ss TY 
Fs 
"properties" : { 
) ; 
} 
邮 } 
电 你 可 能 已 经 注意 到 ， 我 们 还 修改 了 _timestamp 字 上段 的 格式 以 匹配 存储 在 year 字 段 中 的 值 。 


> 如 果 你 使 用 timestamp 字 段 , 并 让 Elasticsearch 自 动 创建 它 , 则 该 字段 的 值 
会 被 设置 为 文档 索引 的 时 间 。 请 注意 ,使 用 局 部 文档 更 新 功能 时 ，_timestamp 
字段 也 将 被 更 新 。 


2.4.8 _tt1 字 段 


_tt1 字 段 表示 time to live ( 生存 时 间 )， 它 允许 定义 文档 的 生命 周期 ， 周 期 结束 之 后 文档 会 
被 自动 删除 。 默 认 情 况 下 ，_tt1 字 段 是 禁用 的 。 要 启用 ， 需 要 添加 _tt1 JSON 对 象 并 设置 它 的 
enabled 属 性 为 Lrue， 参 考 下 面 的 例子 : 


{ 
"hook™ x { 
"ttL™ 天 拒 
"enabled" : true 








} 


"properties" : { 
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如 果 要 提供 文件 的 默认 过 期 时 间 ， 只 需 在 _tt1 字 段 定义 中 添加 aefault 属 性 和 期 望 的 过 期 
时 间 。 例 如 ， 要 在 30 天 后 删除 文件 ， 将 做 以 下 设置 : 


{ 
"BoOok™ ‘3 
ttELT 小 
"enabled" : true, 
"default" : "30d" 





} 


Ls 
"DEODEertie8™. i { 


} 
} 
} 


默认 情况 下 ， 该 _tt1 值 未 经 分 析 即 存储 和 索引 。 你 可 以 改变 这 两 个 参数 ， 但 要 记 住 这 个 字 
段 要 未 经 分 析 才 能 工作 。 





2.5 ”上段 合并 介绍 


1.1 节 提 到 上段 及 其 不 变性 ， 指 出 Lucene 库 以 及 Elasticsearch 中 一 旦 数据 被 写 人 某 些 结构 ， 就 不 
再 改变 。 虽然 这 简化 了 一 些 东西 , 但 是 也 引入 了 额外 的 工作 ， 其 中 一 个 例子 是 删除 。 由 于 上 段 是 无 
法 改变 的 , 因而 有 关 删 除 的 相关 信息 必须 单独 存储 并 动态 应 用 到 搜索 过 程 中 。 这 样 做 是 为 了 从 返 
回 结果 中 去 除 已 删除 的 文件 。 另 一 个 例子 是 文档 无 法 修改 ( 有些 修改 是 可 能 的 , 例如 修改 数值 型 
doc 值 )。 当 然 ， 我 们 可 以 说 ，Elasticsearch 支 持 文档 更 新 ( 请 参阅 1.4 节 )。 然 而 在 底层 ， 实 际 上 是 
删除 旧 文 要 ， 再 把 更 新 内 容 的 文档 编 和 索引。 


随 着 时 间 的 推移 和 持续 索引 数据 ， 越 来 越 多 的 段 被 创建 。 因 此 ,搜索 性 能 可 能 会 降低 ， 而 且 
索引 可 能 比 原先 大 ， 因 为 它 仍 含 有 被 删除 的 文件 。 这 使 得 段 合并 有 了 用 武之 地 。 






























































2.5.1 段 合 


段 合 并 的 处 理 过 程 是 : 底层 的 Lucene 库 获取 若干 段 , 并 在 这 些 段 信息 的 基础 上 创建 一 个 新 的 
段 。 由 此 产生 的 段 拥 有 所 有 存储 在 原始 段 中 的 文档 , 除了 被 标记 为 删除 的 那些 之 外 。 合 并 操作 之 
后 ， 源 段 将 从 磁盘 上 删除 。 这 是 因为 段 合并 在 CPU 和 1/O 的 使 用 方面 代价 是 相当 高 的 ， 关键 是 要 
适当 地 控制 这 个 过 程 被 调用 的 时 机 和 频率 。 





























2.5.2” 段 合 并 的 必要 性 
你 可 能 会 问 为 何 要 费心 段 合并 。 首先 , 构成 索引 的 段 越 多 , 搜索 速度 越 慢 , 需要 使 用 的 Lucene 
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内 存 也 越 多 。 其次, 索引 使 用 的 磁盘 空间 和 资源 , 例如 文件 描述 符 。 如果 从 索引 中 删除 许多 文档 ， 
直到 合并 发 生 , 则 这 些 文档 只 是 被 标记 为 已 删除 , 而 没有 在 物理 上 删除 。 因而， CPU 
和 内 存 的 文档 可 能 并 不 存在 ! 好 在 Elasticsearch 使 用 合理 的 默认 值 做 段 合并 ， 这 些 默认 值 很 可 能 
不 再 需要 做 任何 更 改 。 

















2.5.3 ”合并 策略 

合并 策略 描述 了 应 执行 合并 过 程 的 时 机 。Elasticsearch 人 允许 配置 以 下 三 种 不 同 的 策略 。 
D tiered: 这 是 默认 合并 策略 ,合并 尺寸 大 致 相似 的 段 ， 并 考虑 到 每 个 层 (tier ) 允许 的 最 
大 段 数 量 ; 
口 1og_byte_size: 这 个 合并 策略 下 ， 随 着 时 间 推 移 ， 将 产生 由 索引 大 小 的 对 数 构成 的 索 
引 ， 其 中 存在 着 一 些 较 大 的 段 以 及 一 些 合并 因子 较 小 的 段 等 ; 
口 10g_qdoc: 这 个 策略 类 似 于 1og_byte_size 合 并 策略 ， 但 根据 索引 中 的 文档 数 而 非 段 的 

实际 字 节 数 来 操作 。 

上 述 的 每 个 策略 都 有 自己 的 参数 来 定义 行为 以 及 可 以 覆盖 的 默认 值 。 本 书 不 做 详细 描述 。 如 
果 你 想 了 解 更 多 ， 请 查看 Mastering ElasticSearch ， 或 去 http:/www.elasticsearch.org/guide/en/ 
elasticsearch/reference/current/index-modules-merge.html 了 解 详情 。 

可 使 用 index.merge.policy.type 属 性 来 设置 想 使 用 的 合并 策略 ， 如 下 所 示 : 


index.merge.policy.type: tiered 


值得 一 提 的 是 ， 索 引 创建 后 将 无 法 再 对 值 进行 修改 。 


















































2.5.4 合并 调度 器 

合并 调度 器 指示 Elasticsearch 合 并 过 程 的 方式 ， 有 如 下 两 种 可 能 。 
口 并 发 合并 调度 器 : 这 是 默认 的 合并 过 程 ， 在 独立 的 线程 中 执行 ， 定 义 好 的 线程 数量 可 以 
并 行 合 并 。 
口 串 行 合并 调度 器 : 这 一 合并 过 程 在 调用 线程 ( 即 执行 索引 的 线程 ) 中 执行 。 合 并 进程 会 

一 直 阻 塞 线 程 直到 合并 完成 。 

调度 器 可 使 用 indqex.merge.scheduler.type 人 参数 设置 。 若 要 使 用 串 行 合并 调度 器 ， 需 把 参 

数值 设 为 serial; 若 要 使 用 并 发 调度 器 ， 则 需 把 参数 值 设 为 concurrent。 例 如 下 面 的 调度 程序 : 


index.merge.scheduler.type: concurrent 






































2.5.5 ”合并 因子 
每 种 合并 策略 都 有 好 几 种 设置 ， 我 们 已 经 说 过 在 这 里 不 一 一 介绍 ， 但 是 合并 因子 是 个 例外 ， 
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它 指定 了 索引 过 程 中 段 合并 的 频率 。 合 并 因子 较 小 时 ,搜索 的 速度 更 快 ， 占 用 的 内 存 也 更 少 , 但 
索引 的 速度 会 减 慢 ; 合并 因子 较 大 时 ， 则 索引 速度 加 快 , 这 是 因为 发 生 的 合并 较 少 , 但 搜索 的 速 
度 变 慢 ， 占 用 的 内 存 也 会 变 大 。 对 于 log_pbyte_size 和 1og_qdoc 合 并 策略 ， 可 以 通过 index. 
merge.policy.merge_fac tor 参 数 来 设置 合并 因子 。 


index.merge.policy.merge_factor: 10 


上 述 例子 将 合并 因子 的 值 设置 成 10，10 也 是 默认 值 。 建 议 在 批量 索引 时 设置 更 高 的 merge_ 
factor 属 性 值 ， 普 通 的 索引 维护 则 设置 较 低 的 属性 值 。 
































~ 


2.5.6 ”调节 


之 前 提 到 过 , 合并 可 能 需要 很 多 的 服务 器 资源 。 合 并 过 程 通常 与 其 他 操作 并 行 执行 ， 所 以 理 
论 上 不 会 产生 太 大 的 影响 。 在 实践 中 ， 磁 盘 IO 操 作 的 数量 可 能 非常 大 ， 以 致 严重 影响 了 整体 性 
能 。 这 时 ， 调 节 (throttling ) 可 以 改善 此 情况 。 事 实 上 ， 此 功能 既 可 用 于 限制 合并 的 速度 ， 也 可 
以 用 于 使 用 数据 存储 的 所 有 操作 。 可 以 在 Elasticsearch 的 配置 文件 中 对 调节 进行 设置 (elasticse- 
arch.yml 文 件 ), 也 可 以 动态 使 用 设置 API 来 设置 ( 请 参阅 8.7.2 节 )。 调整 调节 的 设置 有 两 个 : type 
和 value。 
































为 了 设置 调节 类 型 ， 设 置 indices.store.throttle. type 属 性 值 为 下 列 值 之 一 。 











口 none: 该 值 定义 不 打开 调节 。 
口 merge: 该 值 定义 调节 仅 在 合并 过 程 中 有 效 。 
口 al1: 该 值 定 义 调节 在 所 有 数据 存储 活动 中 有 效 。 
第 二 个 属性 ,indqices .store.throttle.max_bytes_per_sec, 描述 了 调节 限制 VO 操作 
的 数量 。 顾 名 思 义 ， 该 属性 告诉 我 们 每 秒 可 以 处 理 的 字 节 数量 。 来 看 看 以 下 配置 ; 


indices.store.throttle.type: merge 
indices.store.throttle.max bytes_per_sec: 10mb 


这 个 例子 中 ,我 们 限制 合并 操作 为 每 秒 10 MB 。 默 认 情 况 下 ，Elasticsearch 使 用 merge 调 节 类 
型 ，max_bytes_per_sec 属 性 设置 值 为 20 mb。 这 意味 着 所 有 的 合并 操作 都 限于 每 秒 20 MB。 





























2.6 路 由 介绍 


默认 情况 下 ，Elasticsearch 会 在 所 有 索引 的 分 片 中 均匀 地 分 配 文档 。 然 而 ， 这 并 不 总 是 理想 
情况 。 为 了 获得 文档 ，Elasticsearch 必 须 查 询 所 有 分 片 并 合并 结果 。 然 而 ， 如 果 你 可 以 把 数据 按 
照 一 定 的 依据 来 划分 (例如 ,客户 端 标 识 符 )， 就 可 以 使 用 一 个 强大 的 文档 和 查询 分 布控 制 机 制 : 
路 由 。 简 而 言 之 ， 它 允许 选择 用 于 索引 和 搜索 数据 的 分 片 。 
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2.6.1 默认 索引 过 程 


在 创建 索引 的 过 程 中 ， 当 你 发 送 文 档 时 ，Elasticsearch 会 根据 文档 的 标识 符 ， 选 择 文档 应 编 
入 索引 的 分 片 。 默 认 情 况 下 ，Elasticsearch 计 算 文档 标识 符 的 散 列 值 ， 以 此 为 基础 将 文档 放置 于 
一 个 可 用 的 主 分 片上 。 接 着 ,这 些 文档 被 重新 分 配 至 副本 。 下 面 的 流程 图 简单 演示 了 索引 在 默认 
情况 下 是 如 何 工 作 的 : 





















































Elasticsearch 集 群 








2.6.2 ”默认 搜索 过 程 


搜索 与 索引 略 有 不 同 ,， 在 多 数 情况 下 ,为 了 得 到 感 兴趣 的 数据 ， 你 需要 查询 所 有 分 片 。 试 想 
一 下 ， 使 用 如 下 映射 描述 你 的 索引 : 


{ 
"mappings" : { 
人 
"properties" : { 
Hd (TEVBe™ 3: "LONngy SEOre™ » “yes, 
"precision step" : "0" }, 
"name" : { "type" : "string", "store" : "yes", 
"index" : "analyzed" }, 
"Gontents" 2 { "type™ 3: “string", "store™ : "no", 
"index" : "analyzed" }, 
"userId" : { "type" : "long", "store" : "yes", 
"precisiorn steB" 3 "0 } 
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人 
} 
} 
} 
可 以 看 到 ， 索 引 包 含 了 4 个 字段 : 标识 符 (ia 字段 )、 文 档 和 名称 (name 字段 )、 文 档 内 容 
(contents 字 段 ) 及 文档 所 属 用 户 的 标识 符 (userId 字 段 )。 为 了 得 到 特定 用 户 的 所 有 文档 
(userId 值 为 12 )， 可 以 运行 如 下 命令 : 








Curl -XGET 'http://localhost:9200/posts/_ search?q=userId:12' 

一 般 而 言 ， 我 们 将 查询 发 送 到 Elasticsearch 的 一 个 节点 ，Elasticsearch 将 会 根据 搜索 类 型 (将 
在 第 3 草 讨 论 ) 来 执行 查询 。 这 通常 意味 着 它 首先 查询 所 有 节点 得 到 标识 符 和 匹配 文档 的 得 分 ， 
接着 发 送 一 个 内 部 查询 ， 但 仅 发 送 到 相关 的 分 片 〈 包 含 所 需 文档 的 分 片 )， 最 后 获取 所 需 文档 来 
构建 响应 。 


以 下 视图 简单 演示 了 在 搜索 过 程 中 默认 路 由 的 工作 方式 : 
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假使 把 单个 用 户 的 所 有 文档 放置 于 单个 分 片 之 中 , 并 对 此 分 片 查询 , 会 出 现 什么 情况 ? 是 否 
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对 性 能 来 说 不 明智 ? 不 ， 这 种 操作 是 相当 便利 的 ， 也 正 是 路 由 所 人 允许 的 。 


2.6.3 ”路 由 

路 由 可 以 控制 文档 和 查询 转发 的 目的 分 片 。 现 在 , 你 可 能 已 经 猜 到 了 ,可 以 在 索引 和 查询 时 
都 指定 路 由 值 。 事 实 上 ， 如 果 你 决定 指定 明确 的 路 由 值 ， 可 能 会 在 索引 和 搜索 过 程 中 都 这 样 做 。 

在 我 们 的 例子 中 ， 索 引 时 使 用 userTdq 值 来 设置 路 由 ， 在 搜索 时 也 一 样 。 你 可 以 想象 ， 对 于 
相同 的 userId 值 ， 计 算出 的 散 列 值 是 相同 的 ， 因 而 特定 用 户 的 所 有 文档 将 被 放置 在 相同 的 分 片 
中 。 在 搜索 中 使 用 相同 的 属性 值 ， 则 只 需 搜索 单个 分 片 而 不 是 整个 索引 。 

要 记 住 ， 使 用 路 由 时 ， 你 仍然 应 该 为 与 路 由 值 相同 的 值 添加 一 个 过 滤器 。 这 是 因为 ， 路 由 值 
的 数量 或 许 会 比索 引 分 片 的 数量 多 。 因 此 ,一 些 不 同 的 属性 值 可 以 指向 相同 的 分 片 ， 如果 你 忽略 
过 滤 ， 得 到 的 数据 并 非 是 路 由 的 单个 值 ， 而 是 特定 分 片 中 驻 留 的 所 有 路 由 值 。 

下 图 简单 展示 了 给 定 路 由 值 时 ， 搜 索 是 如 何 工作 的 : 
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如 你 所 见 ，Elasticsearch 将 把 查询 发 送 到 单个 分 片上 。 现 在 来 看 看 如 何 指定 路 由 值 。 
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2.6.4 ”路 由 参数 


最 简单 的 方法 (但 并 不 总 是 最 方便 的 一 个 ) 是 使 用 路 由 参数 来 提供 路 由 值 。 索 引 或 查询 时 ， 
你 可 以 添加 路 由 参数 到 HTTP， 或 使 用 你 所 选择 的 客户 端 库 来 设置 。 


所 以 ,为 了 在 前 面 所 示 的 索引 中 建立 一 个 示例 文档 ， 使 用 下 列 命 令 : 


curl -XPUT 'http://localhost:9200/posts/post/1?routing=12' -d '{ 
rid": bh 
"name": "Test document", 
"contents": "Test document", 
"userId": "12" 
了 


下 面 是 使 用 路 由 参数 的 查询 : 


Curl -XGET 
'http://localhost:9200/posts/_search?routing=12&q=userId:12' 


可 以 看 到 , 索引 和 查询 时 我 们 使 用 相同 的 路 由 值 。 这 么 做 是 因为 我 们 知道 在 索引 时 设置 的 属 
性 值 为 12 ， 我 们 想 要 查询 指向 同一 分 片 ， 因 此 需要 使 用 完全 相同 的 值 。 

请 注意 , 你 可 以 指定 多 个 路 由 值 ,并 由 逗号 分 隔 开 来 。 如 果 还 想 在 前 面 的 查询 中 使 用 section 
参数 (如果 存在 的 话 ) 来 路 由 ， 并 根据 这 个 参数 过 滤 ， 查 询 将 会 如 下 所 示 : 


Curl -XGET 
'http://localhost:9200/posts/_search?routing=12, 
6654&q=userId:12+AND+section:6654' 
7 记 住 ， 路 由 值 不 是 为 了 获取 特定 用 户 结果 而 唯一 要 指定 的 值 。 这 是 因为 通常 
情况 下 分 片 很 少 有 唯一 的 路 由 值 。 这 意味 着 我 们 在 单个 分 片 中 会 有 来 自 多 个 用 户 
























































的 数据 。 所 以 使 用 路 由 时 ， 你 还 应 该 过 滤 结 果 。3.5 节 会 介绍 更 多 关于 过 滤 的 知识 。 


2.6.5 ”路 由 字段 

为 每 个 发 送 到 Elasticsearch 的 请 求 指 定 路 由 值 并 不 方便 , 事实 上 , 在 索引 过 程 中 , Elasticsearch 
人 允许 指定 一 个 字段 ， 用 该 字段 的 值 作为 路 由 值 。 这 样 只 需要 在 查询 时 提供 路 由 参数 。 为 此 , 在 类 
型 定义 中 需要 添加 以 下 代码 : 





























区 长于 这 可 2 
"eatiired, s tee 
"path" : "userId" 


} 

上 述 定义 意味 着 需要 提供 路 由 值 ("regquired": true 属 性 )， 否则 ， 索 引 请 求 将 失败 。 除 
此 之 外 ,我 们 还 指定 了 path 属 性 ， 说 明文 档 的 哪个 字段 值 应 被 设置 为 路 由 值 ， 在 上 述 示例 中 ， 
我 们 使 用 了 userId 字 段 值 。 这 两 个 参数 意味 着 用 于 索引 的 每 个 文档 都 需要 定义 userId 字 段 。 这 





























图 灵 社 区 会 员 打 顺 顺 (lvshun@live.cn) 专 享 尊重 版 权 





2.7 小结 03 





很 便捷 ， 因 为 现在 使 用 批量 索引 时 ,无需 单 个 分 支 的 所 有 文档 都 使 用 相同 的 路 由 值 ( 而 设置 路 由 
参数 的 情况 下 ， 只 能 这 样 )。 然 而 ， 请 记 住 ， 在 使 用 路 由 字段 时 ，Elasticsearch 需 要 一 些 额外 的 解 
析 ， 因 此 比 使 用 路 由 参数 时 慢 一 点 。 

添加 路 由 部 分 后 ， 整 个 更 新 的 映射 文件 将 如 下 所 示 : 








{ 
"mappings" : { 
nda 二 二 

" routing" : { 
"required" : true, 
"path" : "userId" 

}» 

"properties" : { 
"id" : { "type" : "long", "store" : "yes", 
"precision step" : "0" }, 
"name" : { "type" : "string", "store" : "yes", 
"index" : "analyzed" }, 
"eontents" s { "type" 3 "string"; "Store™ : "no", 
"index" : "analyzed" }, 
serid" 3 { "type” + "long", "StOre” » "yegs", 
"precision step" : "0" } 

} 

} 
} 
} 


如 果 想 使 用 上 述 映 射 来 创建 posts 索 引 ， 可 使 用 下 面 的 命令 来 为 单个 测试 文档 建立 索引 : 


Curl -XPOST 'localhost:9200/posts/post/1' -d '{ 
和 
"name":"New post", 
"contents": "New test post", 
"userId":1234567 
Ek 


Elasticsearch 将 使 用 1234567 作 为 索引 时 的 路 由 值 。 





2.7 小 结 


本 章 介 绍 了 Elasticsearch 索 引 的 工作 原理 ; 如 何 创建 自己 的 映射 以 定义 索引 结构 ， 并 使 用 它 
们 创建 索引 ; 批量 索引 是 什么 以 及 如 何 使 用 ,如何 有 效 地 索引 数据 ; 文档 中 可 以 存储 哪些 附加 信 
息 。 除 此 之 外 , 我 们 还 了 解 了 段 合并 是 什么 ， 如 何 配置 ， 以 及 什么 是 调节 。 最 后 ， 学 习 了 路 由 的 
使 用 和 配置 。 

下 一 章 的 重点 放 在 搜索 上 。 我 们 将 先 介 绍 如 何 对 Elasticsearch 查 询 ， 有 哪些 基本 的 查询 可 用 。 
之 后 , 将 使 用 过 滤器 ， 并 了 解 它们 为 什么 重要 。 接 下 来 ,我 们 将 学 习 如 何 验 证 查询 和 使 用 高 亮 功 
能 。 最 后 ， 使 用 复合 查询 ， 探 索 查询 的 内 部 机 制 ， 对 查询 结果 排序 。 
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前 一 章 介 绍 了 Elasticsearch 索 引 的 工作 原理 ， 如 何 创建 自 定 义 映 射 ， 以 及 可 以 使 用 什么 数据 
类 型 ; 还 在 索 





索引 中 存储 了 附加 的 信息 ; 使 用 了 默认 和 非 默 认 形式 的 路 由 。 读 完 本 章 , 我 们 将 了 解 
以 下 主题 : 


口 查询 Elasticsearch 并 选择 要 返回 的 数据 ; 
口 Elasticsearch 查 询 过 程 的 工作 机 制 ; 

口 了 解 Elasticsearch 提 供 的 基本 查询 ; 

口 筛选 查询 结果 ; 

口 了 解 高 亮 的 工作 原理 以 及 如 何 使 用 ; 

口 验证 查询 ; 

口 探索 复合 查询 ; 

口 数据 排序 。 











3.1 查询 Elasticsearch 


到 目前 为 止 ， 我 们 使 用 了 REST API 和 简单 查询 或 GET 请 求 来 搜索 数据 。 更 改 索引 时 ， 无 论 
想 执行 的 操作 是 更 改 映 射 还 是 文档 索引 化 ， 都 要 用 REST API 向 Elasticsearch 发 送 JSON 结 构 的 数 
据 。 类 似 地 ,如 果 想 发 送 的 不 是 一 个 简单 的 查询 ,仍然 把 它 封装 为 JSON 结 构 并 发 送 给 Elasticsearch 。 
这 就 是 所 谓 的 查询 DSL。 从 更 宏观 的 角度 看 ，Elasticsearch 支 持 两 种 类 型 的 查询 : 基本 查询 和 复合 
查询 。 基 本 查询 ， 如 词 条 查询 用 于 查询 实际 数据 ，3.3 节 将 介绍 。 第 二 种 查询 为 复合 查询 ， 如 布 
尔 查询 ， 可 以 合并 多 个 查询 ，3.4 节 将 讨论 。 


然而 ， 这 不 是 全 部 。 除 了 这 两 种 类 型 的 查询 ， 你 还 可 以 用 过 滤 查 询 ， 根 据 一 定 的 条 件 缩小 
询 结果 。 不 像 其 他 查询 ， 筛 选 查询 不 会 影响 得 分 ， 而 且 通 常 非常 高 效 。 
更 加 复杂 的 情况 ， 查 询 可 以 包含 其 他 查询 ( 别 担心 ， 我 们 将 试 着 解释 这 个 内 容 ) 此 外 ， 一 


些 查询 可 以 包含 过 滤器 ， 而 其 他 查询 可 同时 包含 查询 和 过 滤器 。 这 并 不 是 全 部 , 但 暂时 先 解释 这 
些 工 作 ，3.4 节 和 3.5 节 将 详细 介绍 。 


























呈 
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3.1.1 示例 数据 


如 果 没 有 特别 说 明 ， 一 些 映射 将 用 于 本 章 的 余下 部 分 : 
{ 





elolel Se a 
"_index" : { 
"enabled" : true 
js 
Ls WL 
"index": "not_ analyzed", 
"store" : "yes" 
js 
"properties" : { 
autnoenr :| 
"type™ ;: "string" 
5 
"characters" : { 
"Eve ss String” 
js 
"Copies" : { 
"type" : "long", 
"ignore malformed" : false 
) 5 
EL 过 
"type™ 二 "string” 
js 
"tags" : { 
"type™ : "string" 
js 
Edtler 3 
"type™ : Tstring” 
ss 
"year" : { 
"type" : "long", 
"ignore malformed" : false, 
"index" : "analyzed" 
和 
"available" : { 
"type" : "boolean" 


如 果 没 有 特别 说 明 ，string 类 型 的 字段 将 被 分 析 。 





上 述 映射 (保存 为 mapping.json 文 件 ) 用 来 创建 library 索 引 。 使 用 下 面 的 命令 来 运行 : 


Curl -XPOST 'localhost:9200/library' 
Curl -XPUT 'localhost:9200/library/book/ mapping' -d @mapping.json 
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如 果 没 有 特别 说 明 ， 下 面 的 数据 在 本 章 通用 : 


{ "index": {"_index": "Jibrary", " type": "book", "_id": "1"}} 

{ "title": "All Quiet on the Western Front","otitle": "Im Westen 
nichts Neues","author": "Erich Maria Remarque","year": 
1929, "characters": ["Paul Biéumer", "Albert Kropp", "Haie 
Westhus", "Fredrich Miller", "Stanislaus Katczinsky", 
"Tjaden"],"tags": ["novel"],"copies": 1, "available": true, 
"SectLionY 人 BH 

二 index"s {" index"s Iibrary.,; vv tvoe™ "Dook™, Tid "Dt} 

{ "title": "Catch-22","author": "Joseph Heller","year": 
1961,"characters": ["John Yossarian", "Captain Aardvark", 
"Chaplain Tappman", "Colonel Cathcart", "Doctor 
Daneeka"],"tags": ["novel"],"copies": 6, "available" : false, 
"SECtion" .: 1 

{ "index": {"_index": "library", "_type": "book", "_id": "3"}} 

{ "title": "The Complete Sherlock Holmes", 
"author": "Arthur Conan Doyle","year": 1936,"characters": 
["Sherlock Holmes", "Dr. Watson", "G. Lestrade"],"tags": 
[],"copies": 0, "available" : false, "section" : 12} 

{ "index": {"_index": "library", "_type": "book", "_id": "4"}} 

{ "title": "Crime and Punishment","otitle": "IIpecTynnéHne wu 
HaKkaséHUne", "author": "Fyodor Dostoevsky","year": 
1886,"characters": ["Raskolnikov", "Sofia Semyonovna 
Marmeladova"],"tags": [],"copies": 0, "available" : true} 

把 上 面 数据 保存 在 documents.json 文 件 里 ,使 用 下 面 的 命令 来 索引 化 : 

Curl -s -XPOST 'localhost:9200/ bulk' --data-binary @documents.json 


沪 命 令 执行 批量 索引 ， 你 可 以 在 2.3 节 中 学 习 更 多 有 关内 容 。 


3.1.2 简单 查询 

查询 Elasticsearch 最 简单 的 办 法 是 使 用 URI 请 求 查询 ,1.5 节 已 经 讨论 过 。 例 如 ,为 了 搜索 title 
字段 中 的 crime 一 词 ， 使 用 下 面 的 命令 ; 

Curl -XGET 'localhost:9200/library/book/_ search?q=title:crime&tpretty=true' 


这 种 查询 方式 很 简单 , 但 比较 局 限 。 如 果 从 Elasticsearch 的 查询 [DSL 的 视点 来 看 ， 上 面 的 查询 
是 一 种 suery_string 查 询 ， 它 查询 title 字 段 中 含有 crime 一 词 的 文档 ， 可 以 这 样 写 : 























{ 
"query" : { 
"query_string" : { "query" : "title:crime" } 
} 
} 


采用 查询 DSL 来 发 送 查 询 有 点 不 同 ， 但 也 不 是 什么 高 深 的 东西 。 我 们 和 以 前 一 样 发 送 HTTP 
GET 请 求 到 _search 这 个 REST 端 点 ， 并 在 请 求 主体 中 附 上 查询 。 来 看 看 下 面 的 命令 : 
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Curl -XGET 'localhost:9200/library/book/_ search?pretty=true' -d '{ 
"query" : { 
"query_ string" : { "query" : "title:crime" } 
} 
} 下 
可 以 看 到 ， 我 们 使 用 请 求 体 ( -ad 参数 ) 把 整个 JSON 格 式 的 查询 发 到 Elasticsearch 。 
pretty=true 人 参数 让 Elasticsearch 以 更 容易 阅读 的 方式 返回 响应 。 上 述 命令 的 响应 如 下 所 示 : 


{ 














"took" : 1, 

"timed out" : false, 

"_ shards" : { 
"total™ 3 5 
"successful" : 5, 
"failed" : 0 

Fs 

"hits" : { 
"Eotal™ sls 
"max score" : 0.15342641, 
"hits" : [ { 

"_ index" : "library", 

"_ type" : "book", 

"id"™ : "a", 

"_score" : 0.15342641, " source" : { "title": "Crime and 
Punishment","otitle": "IlpecTynnéHne un HarkaséHne", "author": 
"Fyodor Dostoevsky","year": 1886,"characters": 
["Raskolnikov", "Sofia Semyonovna Marmeladova"],"tags": 
[],"copies": 0, "available" : true} 

}1] 
} 
} 


很 好 ! 我 们 得 到 了 使 用 查询 DSL 的 第 一 个 搜索 结果 。 








3.1.3 ”分 页 和 结果 集 大 小 


正如 我 们 所 期 望 的 ，Elasticsearch 能 控制 想 要 的 最 多 结果 数 以 及 想 从 哪个 结果 开始 。 下 面 是 
可 以 在 请 求 体 中 添加 的 两 个 额外 参数 。 
口 from: 该 属性 指定 我 们 希望 在 结果 中 返回 的 起 始 文 档 。 它 的 默认 值 是 9，, 表示 想 要 得 到 从 
第 一 个 文档 开始 的 结果 。 
D size: 该 属性 指定 了 一 次 查询 中 返回 的 最 大 文档 数 ， 默 认 值 为 10。 如 果 只 对 切面 结果 感 
兴趣 ， 并 不 关心 文档 本 身 ， 可 以 把 这 个 参数 设置 成 0。 
如 果 想 让 查询 从 第 10 个 文档 开始 返回 20 个 文档 ， 可 以 发 送 如 下 查询 : 


{ 


"om 3 9 
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"size" : 20, 
mn query " { 
"query_string" : { "query" : "title:crime" } 


} 
} 


下 载 示 例 代码 。 如 果 你 是 用 账号 从 http:/www.packtpub.com 买 的 书 ， 可 以 到 


上 面 下 载 示例 代码 。 如 果 你 是 从 别 的 地 方 买 的 书 ， 可 以 访问 http:Wwww. 
PacktPub.com/support 并 注册 ， 把 代码 文件 直接 发 到 你 的 电子 邮箱 。 


3.1.4 返回 版 本 值 





除了 所 有 返回 的 信息 以 外 ，Elasticsearch 还 可 以 返回 文档 的 版 本 。 为 此 ， 需 要 在 JSON 对 象 的 





| 





最 上 层 添 加 version 属 性 并 把 值 设 为 Lrue。 所以， 要求 返 回 版 本 信 ) 


{ 
"version™. » true; 
由 query " { 
"query_string" : { "query" : "title:crime" } 


} 
} 


执行 上 面 的 查询 后 ， 得 到 如 下 结 
{ 





"took" : 2, 
"timed out" : false, 
"_shards" : { 
"total" : 5, 
"successful" : 5, 
"failed" : 0 
}, 
mL 七 瑟瑟 
"total" : 1, 
"max _ score" : 0.15342641, 
"hits" : [ { 
" index" : "library", 
"_ type" : "book", 
™ id™ s Wa"; 
"_version" : 1, 


"_score" : 0.15342641, " source" : { "title": "Crime 
Punishment","otitle": "IlpecTynnéHXne MX HakasédHne", 


"author": "Fyodor Dostoevsky","year": 1886, 
"characters": ["Raskolnikov", "Sofia Semyonovna 


Marmeladova"],"tags": [],"copies": 0, "available" 


}] 
} 
} 


可 以 看 到 ，_version 属 





证 


如 


性 出 现在 返回 的 唯一 hit 对 象 中 。 
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and 


: true} 
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3.1.5 ”限制 得 分 

对 于 非 标 准 用 例 ，Elasticsearch 提 供 一 项 功能 ， 让 我 们 可 以 根据 文档 需要 满足 的 最 低 得 分 值 ， 
来 过 滤 结 果 。 为 了 用 此 功能 ， 必 须 在 JSON 顶 层 提供 min_score 属 性 和 最 低 得 分 值 。 例 如 ， 希 望 
我 们 的 查询 只 返回 得 分 高 于 0.75 的 文档 ， 发 出 以 下 查询 : 

{ 




















CO 5 
n query "  : { 
"gquery_string" : { "query" : "title:crime" } 


. 
} 


执行 后 得 到 如 下 响应 : 


{ 
EoOOk™ :1 
"timed out" : false, 
"_ shards" : { 
"total" : 5, 
"successful" : 5, 
"failed" : 0 
}s 
"hits" : { 
"total" : 0, 
"max _ score" : null, 
"hits" : [ ] 
} 
} 


看 下 之 前 那个 例子 ,文档 的 得 分 为 0.153 426 41， 比 0.75 低 ， 所 以 这 次 没有 得 到 任何 文档 。 限 
制 得 分 一 般 没 太 大 意义 ， 因 为 一 般 来 说 在 查询 之 间 比 较 得 分 很 困难 。 也 许 在 某 些 情况 下 ,你 将 需 
要 这 个 功能 。 


3.1.6 选择 需要 返回 的 字段 


在 请 求 主体 中 使 用 字段 数组 , 可 以 定义 在 响应 中 包含 哪些 字段 。 记 住 ， 你 只 能 返回 那些 在 用 
于 创建 索引 的 映射 中 标记 为 存储 的 字段 , 或 者 你 使 用 了 _source 字 段 ( Elasticsearch 使 用 _source 
字段 提供 存储 字段 )、 因 此 ， 要 让 每 个 结果 中 的 文档 只 返回 title 和 year 字 段 ， 发 送 下 面 的 查询 
到 Elasticsearch : 











{ 


"fields" 了 [ "title", mean ].， 
n query "  : Et 
"query_string" : { "query" : "title:crime" } 


} 
} 


在 响应 中 ， 得 到 如 下 输出 : 
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"took" : 2， 
"timed out" : false, 
"_shards" : { 
"total" : 5, 
"successful" : 5, 
"failed" : 0 
Fs 
"hits" : { 
"total" : 1, 
"max_ score" : 0.15342641, 
"hits" : [ { 
" index" : "library", 
" type" : "book", 
"ia : "ada", 
"_score" : 0.15342641, 
"fields" : { 
"title" : [ "Crime and Punishment" ], 
"year" : [ 1886 ] 


可 以 看 到 ， 一 切 按 预 期 工作 。 与 你 分 享 以 下 3 点 : 


口 如 果 没 有 定义 fieldqs 数 组 ， 它 将 用 默认 值 ， 如 果 有 就 返回 _source 字 段 ; 

口 如 果 使 用 _source 字 段 ， 并 且 请 求 一 个 没有 存储 的 字段 ， 那 么 这 个 字段 将 从 _source 字 
段 中 提取 ( 然而 ， 这 需要 额外 的 处 理 ); 

口 如 果 想 返回 所 有 的 存储 字段 ， 只 需 传 人 星 号 (* ) 作为 字段 名 字 。 














| 从 性 能 的 角度 ， 返 回 _source 字 段 比 返回 多 个 存储 字段 更 好 。 


部 分 字段 


除 可 以 选择 要 返回 哪些 字段 外 ，Elasticsearch 人 允许 使 用 所 谓 部 分 字段 。 可 以 通过 它 来 控制 字 
段 是 如 何 从 _source 字 段 加 载 的 。Elasticsearch 公 开 了 部 分 字段 对 象 的 include 和 exclude 属 性 ， 
所 以 可 以 基于 这 些 属性 来 包含 或 排除 字段 。 例 如 , 为 了 在 查询 中 包括 以 tit1 开 头 且 排除 以 chara 
开头 的 字段 ， 发 出 以 下 查询 : 

{ 





























"partial_ fields" : { 
"partiall" : { 
"ineLuder, $$ [E "titLs ]; 
"exclude" : [ "chara*" ] 
} 
} 
"auery" ££ { 
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"gquery_string" : { "query" : "title:crime" } 


3.1.7 ”使 用 脚本 字段 


可 以 在 Elasticsearch 中 返 回 脚本 计算 字段 : 在 JSON 的 查询 对 象 中 加 上 script_fields 部 分 ， 
添加 上 每 个 想 返回 的 脚本 值 的 名 字 。 若 要 返回 一 个 叫 correctYeaz 的 值 ， 它 用 year 字段 减 去 
1800 计 算得 来 ， 运 行 以 下 查询 : 


{ 





TSCript_ fieLdes” 于 
"CorrectYear" : { 
"script" : "doc['year'] .value - 1800" 
} 
js 
"query" : { 
"query_string" : { "query" : "title:crime" } 


} 
} 


我 们 在 上 面 的 示例 中 使 用 了 doc 符 号 , 它 让 我 们 捕获 了 返回 结果 , 从 而 让 脚本 执行 速度 更 快 ， 
但 也 导致 了 更 高 的 内 存 消耗 , 并 且 限 制 了 只 能 用 单个 字段 的 单个 值 。 如 果 关 心 内 存 的 使 用 , 或 者 
使 用 的 是 更 复杂 的 字段 值 ， 可 以 用 _source 字 段 。 使 用 此 字段 的 查询 如 下 所 示 : 

{ 








"script_fields" : { 
"CorrectYear" : { 
"script" : "_source.year - 1800" 
} 
js 
"query" : { 
"query string™ : ( "guery™ * "titlecrime™ } 


} 
} 


这 个 查询 将 返回 如 下 响应 : 


七 OOKEE 5 工 7 
"timed out" : false, 
"_ shards" : { 
"total™ 3 5 
"successful" : 5, 
"failed" : 0 
}v 
"hits" : { 
"total" : 1, 
"max score" : 0.15342641, 
"hits" : [ { 
" index" : "library", 
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"_type" : "book", 
"id : "a", 

"_score" : 0.15342641, 
"fields" : { 
"CorrectYear" : [ 86 ] 


}1] 
} 
} 


可 以 看 到 ， 我 们 在 响应 中 得 到 了 correctYear 这 个 计算 字段 。 


传 参 数 到 脚本 字段 中 


再 看 一 个 脚本 字段 的 特性 : 可 传人 额外 的 参数 。 可 以 使 用 一 个 变量 名 称 , 并 把 值 传 人 params 
节 中 ， 而 不 是 直接 把 1800 写 在 等 式 中 。 这 样 做 以 后 ， 查 询 将 如 下 所 示 : 





























{ 


"script_fields" : { 
"CorrectYear" : { 
"script" : "_source.year - paramYear", 
"params" : { 
"paramYear" : 1800 
} 
} 
3 
"query" : { 
"query_string" : { "query" : "title:crime" } 


} 
} 


可 以 看 到 ， 我 们 在 脚本 的 等 式 中 添加 了 paramyear 变 量 ， 并 在 params 节 中 提供 了 变量 
的 值 。 
5.2 节 将 介绍 关于 脚本 使 用 的 更 多 内 容 。 





3.2 理解 查询 过 程 


读 完 上 一 节 后 ， 我 们 知道 了 Elasticsearch 的 查询 的 工作 原理 。 要 知道 在 大 多 数 情况 下 ， 
Elasticsearch 需 要 分 散 查 询 到 多 个 节点 中 ， 得 到 结果 ， 合 并 它们 ， 再 获取 有 关 文 档 并 返回 结果 。 
我 们 还 没 谈 到 的 是 另外 三 个 定义 查询 行为 的 东西 : 查询 重 写 、 搜 索 类 型 和 查询 执行 偏好 。 现 在 ， 
将 注意 力 集 中 在 Elasticsearch 的 这 些 功能 上 ， 试 着 展示 查询 是 如 何 工 作 的 。 









































3.2.1 查询 逻辑 


Elasticsearch 是 一 个 分 布 式 搜 索引 擎 ， 因 此 提供 的 所 有 功能 在 性 质 上 都 必须 是 分 布 式 的 。 碍 
询 也 是 如 此 。 既 然 我 们 想 讨论 一 些 更 高 级 的 、 关 于 如 何 控制 查询 过 程 的 主题 ,首先 需 要 知道 它 是 
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如 何 工 作 的 。 
默认 情况 下 ， 如 果 我 们 什么 都 不 改变 ， 查 询 过 程 将 分 为 两 个 阶段 ， 如 下 图 所 示 : 














查询 发 送 到 Elasticsearch 的 其 中 一 个 节点 ， 这 时 发 生 的 是 一 个 所 谓 的 发 放 阶 段 。 查 询 分 布 到 
建立 过 索引 的 所 有 分 片上 。 如 果 它 建立 在 5 个 分 片 和 1 个 副本 基础 上 ,那么 ， 这 5 个 实体 分 片 都 会 
被 查询 ( 不 需要 同时 查询 分 片 及 其 副本 ， 因 为 它们 包含 相同 的 数据 )。 每 个 查询 的 分 片 将 只 返回 
文档 的 标识 符 和 得 分 。 发 送 分 散 查 询 的 节点 将 等 待 所 有 的 分 片 完成 它们 的 任务 , 收集 结果 并 适当 
排序 ( 在 这 种 情况 下 ， 按 得 分 从 低 到 高 )。 


之 后 , 将 发 送 一 个 新 的 请 求 来 生成 搜索 结果 。 然 而, 这 次 请 求 将 只 发 送 到 那些 持 有 响应 所 需 
文档 的 分 片上 。 在 大 多 数 情 况 下 ，Elasticsearch 不 会 把 请 求 发 送 到 所 有 的 分 片 ， 而 只 是 发 送 给 其 
中 的 一 部 分 。 这 是 因为 通常 不 需要 整个 查询 结果 , 只 要 一 部 分 。 这 一 阶段 被 称 为 收集 阶段 ( gather 
phase )。 收 集 完 所 有 文档 ， 将 建立 最 终 响应 ， 并 返回 查询 结果 。 


当然 ， 上 述 是 Elasticsearch 的 默认 行为 ， 可 以 改变 。 以 下 部 分 将 描述 如 何 更 改 此 行为 。 


3.2.2 ”搜索 类 型 


Elasticsearch 人 允许 通过 指定 搜索 类 型 来 选择 查询 在 内 部 如 何 处 理 。 不 同 的 搜索 类 型 适合 不 同 
的 情况 ; 可 以 只 在 乎 性 能 , 但 有 时 查询 的 关联 性 可 能 是 最 重要 的 因素 。 你 应 该 记得 每 个 分 片 是 一 
个 小 的 Lucene 索 引 ,， 为 了 返回 更 多 相关 的 结果 ,频率 等 信息 需要 在 分 片 之 间 传 输 。 为 了 控制 查询 
如 何 执行 ， 可 以 使 用 search_type 请 求 参数 ， 并 将 其 设置 为 下 列 值 之 一 。 
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口 auery_then_fetch: 第 一 步 ， 执 行 查询 得 到 对 文档 进行 排序 和 分 级 所 需 信息 。 这 一 步 
在 所 有 的 分 片上 执行 。 然后， 只 在 相关 分 片上 查询 文档 的 实际 内 容 。 不同 于 query_and_ 
fetch， 此 查询 类 型 返回 结果 的 最 大 数量 等 于 size 参 数 的 值 。 如 果 没 有 指定 搜索 类 型 ， 
就 默认 使 用 这 个 类 型 ， 前 面 描述 过 。 

口 query_ang_fetch: 这 通常 是 最 快 也 最 简单 的 搜索 类 型 实现 。 查 询 在 所 有 分 片上 并 行 执 
行 ( 当然, 任意 一 个 主 分 片 ， 只 查询 一 个 副本 )， 所 有 分 片 返回 等 于 size 值 的 结果 数 。 返 
回 文档 的 最 大 数量 等 于 size 的 值 乘 以 分 片 的 数量 。 

DQ dfs_query_and_ fetch: 这 个 跟 query_and_fetch 类 似 ， 但 相 比 auery_anq_fetch， 
它 包 含 一 个 额外 阶段 ， 在 初始 查询 中 执行 分 布 式 词 频 的 计算 ， 以 得 到 返回 文件 的 更 精确 
的 得 分 ， 从 而 让 查询 结果 更 相关 。 

口 dfs_query_then_fetch: 与 前 一 个 dfs_query_and_ fetch 一 样 ,dfs_query_then_fetch 
类 似 于 相应 的 query_then_fetch, 但 比 query。 then_fetch 多 了 一 个 额外 的 阶段 ， 就 像 
dfs_query _ and f etch 一 样 。 

口 count: 这 是 一 个 特殊 的 搜索 ， 只 返回 匹配 查询 的 文档 数 。 如 果 你 只 需要 结果 数 

关心 文档 ， 应 该 使 用 这 个 搜索 类 型 。 

口 scan: 这 是 男 一 个 特殊 的 搜索 类 型 ， 只 有 在 要 让 查询 返回 大 量 结果 时 才 用 。 它 跟 一 般 的 
查询 有 点 不 同 ， 因 为 在 发 送 第 一 个 请 求 之 后 ，Elasticsearch 响 应 一 个 滚动 标识 符 ， 类 似 于 
关系 型 数据 库 中 的 游标 。 所 有 查询 需要 在 _search/scrol1lREST 端 点 运行 ,并 需要 在 请 
求 主体 中 发 送 返 回 的 深 动 标识 符 。6.7 节 将 介绍 它 的 更 多 功能 。 

所 以 ， 如 果 想 使 用 最 简单 的 搜索 类 型 ， 可 以 执行 以 下 命令 : 


Curl -XGET 'localhost:9200/library/book/_ search?pretty=true&search 
type=query and fetch' -d '{ 
"query" 3 { 
"term" : { "title" : "crime" } 
} 
于 
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3.2.3 ”搜索 执行 偏好 


除了 可 以 控制 查询 是 如 何 执行 的 ， 也 可 以 控制 在 哪些 分 片上 执行 查询 。 默 认 情 况 下 ， 
Elasticsearch 使 用 的 分 片 和 副本 ， 既 包含 我 们 已 经 发 送 过 请 求 的 可 用 节点 ， 又 包括 集群 中 的 其 他 节 
点 。 而 且 ， 在 大 多 数 情 况 下 ， 默 认 行 为 是 最 佳 的 查询 首选 方法 。 有 时 我 们 要 更 改 默认 行为 ， 例 如 ， 
可 能 希望 只 在 主 分 片上 执行 搜索 。 为 此 ， 可 以 设置 偏好 请 求 参数 ， 设 为 下 面 表 中 的 其 中 一 个 值 : 


















































参数 值 描 述 
primary 只 在 主 分 片上 执行 搜索 ,不 使 用 副本 。 当 想 使 用 索引 中 最 近 更 新 的 、 还 没 复制 到 副本 
中 的 信息 ， 这 个 是 很 有 用 的 
_primary_first 如 果 主 分 片 可 用 ， 只 在 主 分 片上 执行 搜索 ， 否 则 才 在 其 他 分 片上 执行 
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( 续 ) 
参数 值 描 ” 述 
_local 在 可 能 的 情况 下 ， 只 在 发 送 请 求 的 节点 上 的 可 用 分 片上 执行 搜索 
_only_node:node_id 只 在 提供 标识 符 的 节点 上 执行 搜索 
_prefer node:node_id ea 试 在 提供 标识 符 的 节点 上 执行 搜索 。 如 果 该 节点 不 可 用 ， 则 使 用 划 
他 的 可 用 节 
_shards:1,2 Elasticsearch 将 在 提供 标识 符 的 分 片 上 执行 操作 (在 这 个 例子 中 ,分 片 1 和 2)。_shards 









































参数 可 以 和 其 他 首选 项 合并 ， 但 _shards 标识 符 必 须 在 前 面 ， 比 如 
_shards:1,2;_local 
自 定义 值 可 以 传 入 任何 自 定义 字符 串 值 ， 具 有 相同 值 的 请 求 将 在 相同 的 分 片上 执行 


如 果 只 想 在 本 地 分 片上 执行 查询 ， 可 以 执行 如 下 的 命令 : 


Curl -XGET 'localhost:9200/library/_search?preference= local' -d '{ 
"query" 2 { 
"term" : { "title" : "crime" } 
} 
} 下 














3.2.4 搜索 分 片 API 


在 讨论 搜索 偏好 时 ， 还 想 提 到 Elasticsearch 所 公 开 的 搜索 分 片 API。 此 API 人 允许 检查 将 执行 查 
询 的 分 片 。 需 要 在 _search_shards REST 端 点 执行 这 个 API。 若 要 查看 查询 如 何 执行 ， 运 行 以 





Curl -XGET 'localhost:9200/library/_search shards?pretty' -d 
'{"query": "match all"™:{}}' 


该 命令 将 返回 如 下 响应 


{ 
"nodes" : { 
"NOiP bH3Qrix4NpqsqSUAg" : { 
"name" : "Oracle", 
"transport address" : "inet[/192.168.1.19:9300]" 
} 
} Lh 
"shards" : [ [ { 
"state"™" : "STARTED", 
"primary" : true, 
"node" : "NOiP bH3QrixX4NpqsqSUAg", 
"relocating node" : null, 
"shard" : 0, 
"index" : "library" 
}], [Ht{ 
"state™" : "STARTED", 
"primary" : true, 
"node" : "NOiP bH3QrixX4NpqsqSUAg", 
"relocating node" : null, 
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"Shard" : 1, 
"index" : "library" 

} 1, [Ht 
"state" : "STARTED", 
"primary" : true, 
"node" : "NOiP bH3Qrix4NpqsqSUAg", 
"relocating node" : null, 
"Shard" : 4, 
"index" : "library" 

} ]，[ 1{ 
"State" : "STARTED", 
"primary" : true, 
"node" : "NOiP bH3Qrix4NpqsqSUAg", 
"relocating node" : null, 
"shard" : 3, 
"index" : "library" 

} 1, [Ht 
"state" : "STARTED", 
"primary" : true, 
"node" : "NOiP bH3Qrix4NpqsqSUAg", 
"relocating node" : null, 
"shard" : 2, 
"index" : "library" 

} ] 1] 

} 


可 以 看 到 ， 在 Elasticsearch 返 回 的 响应 中 ， 有 关于 在 查询 过 程 中 使 用 的 分 片 信息 。 当 然 ， 对 
于 搜索 分 片 API， 可 以 使 用 所 有 参数 ， 如 routing 或 preference， 看 看 它 对 搜索 执行 的 影响 。 





3.3 ”基本 查询 


Elasticsearch 具 有 广泛 的 搜索 和 数据 分 析 能 力 ， 以 不 同 的 查询 、 和 筛选 和 聚合 等 形式 公开 。 本 
节 将 集中 讨论 Elasticsearch 提 供 的 基本 查询 。 








3.3.1 词 条 查询 


词 条 查询 是 Elasticsearch 中 的 一 个 简单 查询 。 它 仅 匹 配 在 给 定 字 段 中 含有 该 词 条 的 文档 ， 而 
旦 是 确切 的 、 未 经 分 析 的 词 条 。 最 简单 的 词 条 查询 如 下 所 示 : 














"EL .em 


上 述 查 询 将 匹配 title 字 段 中 含有 crime 一 词 的 文档 。 记 住 , 词 条 查询 是 未 经 分 析 的 , 因此 需 
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要 提供 跟 索 引文 档 中 的 词 条 完全 匹配 的 词 条 。 请 注意 , 在 输入 数据 中 ，title 字 段 含 有 Crime and 
Punishment, 但 我 们 使 用 小 写 开 头 的 crime 来 搜索 。 因 为 Crime 一 词 在 建立 索引 时 已 经 变 成 了 crime。 


除了 想 找 的 词 条 外 ， 还 可 以 在 词 条 查询 中 包含 加 权 属 性 ， 它 影响 给 定 词 条 的 重要 程度 。5.1 
节 将 对 此 进行 详细 讨论 。 现 在 ， 只 需 记 住 它 改变 查询 中 给 定 词 条 的 重要 程度 。 


为 了 修改 前 面 的 查询 ， 给 它 一 个 10.0 的 加 权 ， 可 以 发 送 如 下 查询 : 


{ 




















"query" : { 
"term" : { 
"Eitl]e™ 人 
"value" : "crime", 
"boost” : 10.0 


} 
} 
} 
} 


你 可 以 看 到 ， 我 们 对 查询 做 了 点 改变 。 不 再 是 一 个 简单 的 词 条 ， 髓 套 了 一 个 新 的 JSON 对 象 
包含 value 属 性 和 boost 属 性 。value 属 性 的 值 包含 我 们 感 兴趣 的 词 条 ，boost 属 性 的 值 是 我 们 
想 使 用 的 加 权 值 。 


























3.3.2 ”多 词 条 查询 


多 词 条 查询 允许 匹配 那些 在 内 容 中 含有 某 些 词 条 的 文档 。 词 条 查询 允许 匹配 单个 未 经 分 析 的 
词 条 ， 多 词 条 查询 可 以 用 来 匹配 多 个 这 样 的 词 条 。 假 设想 得 到 所 有 在 tags 字 段 中 含有 nove1 或 
book 的 文档 。 运 行 以 下 查询 来 达到 目的 : 


{ 





"query" : { 
"terms" : { 
"tags" : [ "novel", "book" ]， 
"minimum match" : 1 


} 
} 
} 


上 述 查 询 返 回 在 tags 字 段 中 包含 一 个 或 两 个 搜索 词 条 的 所 有 文档 。 为 什么 ?这 是 因为 我 们 
把 minimum_match 属 性 设置 为 1;， 这 意味 着 至 少 有 1 个 词 条 应 该 匹配 。 如 果 想 要 查询 匹配 所 有 词 
条 的 文档 ， 可 以 把 minimum_match 属 性 设置 为 2。 


























3.3.3 match _ all 查询 
match_al1 查 询 是 Elasticsearch 中 最 简单 的 查询 之 一 。 它 使 我 们 能 够 匹配 索引 中 的 所 有 文件 。 
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如 果 想 得 到 索引 中 的 所 有 文档 ， 只 需 运 行 以 下 查询 : 


"query" : { 
"match all" : {} 
} 
} 


也 可 以 在 查询 中 包含 加 权 值 , 它 将 赋 给 所 有 跟 它 匹配 的 文档 。 比 如 , 在 match_al1 查 询 中 给 
所 有 文档 加 上 2.0 的 加 权 ， 可 以 发 送 以 下 查询 : 


"query" : { 
“mateh alLl..s .4 
"boost" : 2.0 
} 
} 
} 








3.3.4 ”常用 词 查询 


常用 词 查 询 是 在 没有 使 用 停 用 词 ( stop word，http://en.wikipedia.org/wiki/Stop_words ) 的 情况 
下 ，Elasticsearch 为 了 提高 常用 词 的 查询 相关 性 和 精确 性 而 提供 的 一 个 现代 解决 方案 。 例 如 ， 
“crime and punishment” 可 以 翻译 成 3 个 词 查询 ， 每 一 个 都 有 性 能 上 的 成 本 ( 词 越 多 ， 查 询 性 能 越 
低 ), 但 “and” 这 个 词 非常 常见 ， 对 文档 得 分 的 影响 非常 低 。 解 决 办 法 是 常用 词 查询 ,将 查询 分 
为 两 组 。 第 一 组 包含 重要 的 词 ， 出 现 的 频率 较 低 。 第 二 组 包含 较 高 频率 的 、 不 那么 重要 的 词 。 先 
执行 第 一 个 查询 ，Elasticsearch 从 第 一 组 的 所 有 词 中 计算 分 数 。 这 样 ， 通 常 都 很 重要 的 低频 词 总 
是 被 列 人 考虑 范围 。 然 后 ，Elasticsearch 对 第 二 组 中 的 词 执 行 二 次 查询 ， 但 只 为 与 第 一 个 查询 中 
匹配 的 文档 计算 得 分 。 这 样 只 计算 了 相关 文档 的 得 分 ， 实 现 了 更 高 的 性 能 。 


一 个 常用 词 查询 的 例子 如 下 : 


€ 
"query" : { 
Eommonm™" 3 4 
"EE 
"query" : "crime and punishment", 
"cutoff_frequency" : 0.001 
} 
} 
} 
} 


查询 可 使 用 下 列 参 数 。 


口 auery: 这 个 参数 定义 了 实际 的 查询 内 容 。 
口 cutoff_frequency: 这 个 参数 定义 一 个 百分比 (0.001 表 示 0.1% ) 或 一 个 绝对 值 ( 当 此 
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属性 值 >=1 时 )。 这 个 值 用 来 构建 高 、 低 频 词组 。 此 参数 设置 为 0.001 意 味 着 频率 <=0.1% 的 
词 将 出 现在 低频 词组 中 。 

口 low_freq_operator: 这 个 参数 可 以 设 为 or 或 an9， 默认 是 or。 它 用 来 指定 为 低频 词组 
构建 查询 时 用 到 的 布尔 运算 符 。 如 果 和 希望 所 有 的 词 都 在 文档 中 出 现 才 认为 是 匹配 ， 应 该 
把 它 设置 为 angd。 

口 high_freq_operator: 这 个 参数 可 以 设 为 or 或 anda， 默 认 是 o。 它 用 来 指定 为 高 频 词 组 
构建 查询 时 用 到 的 布尔 运算 符 。 如 果 和 希望 所 有 的 词 都 在 文档 中 出 现 才 认 为 是 匹配 ， 那 么 
应 该 把 它 设置 为 ang。 

口 minimum_should_match: 不 使 用 low_freq_operator 和 high_freq_operator 参 数 
的 话 ， 可 以 使 用 minimum_shoulg_match 参 数 。 和 其 他 查询 一 样 ， 它 允许 指定 匹配 的 文 
档 中 应 该 出 现 的 查询 词 的 最 小 个 数 。 

口 boost: 这 个 参数 定义 了 赋 给 文档 得 分 的 加 权 值 。 

口 analyzer: 这 个 参数 定义 了 分 析 查 询 文 本 时 用 到 的 分 析 器 名 称 。 默 认 值 为 aefault 

analyzero 

口 aisable_coord: 此 参数 的 值 默 认为 false， 它 允许 启用 或 禁用 分 数 因子 的 计算 ,该 计 
算 基 于 文档 中 包含 的 所 有 查询 词 的 分 数 。 把 它 设 置 为 true， 得 分 不 那么 精确 ， 但 查询 将 
稍 快 。 
























































| 不 像 词 条 查询 和 多 词 条 查询 ， 常 用 词 查询 是 经 过 Elasticsearch 分 析 的 。 ] 


3.3.5 match 查询 


match 查 询 把 suery 人 参数 中 的 值 拿 出 来 ， 加 以 分 析 ， 然 后 构建 相应 的 查询 。 使 用 match 查 询 
时 ，Elasticsearch 将 对 一 个 字段 选择 合适 的 分 析 器 , 所 以 可 以 确定 , 传 给 match 查 询 的 词 条 将 被 建 
立 索 引 时 相同 的 分 析 需 处 理 。 请 记 住 ,match 查询 ( 以 及 将 在 稍 后 解释 的 multi_match 查 询 ) 不 
支持 Lucene 查 询 语 法 。 但 是 , 它 是 完全 符合 搜索 需求 的 一 个 查询 处 理 器 。 最 简单 也 是 默认 的 match 
查询 如 下 所 示 : 





























"title" : "crime and punishment" 


是 


过 





上 面 的 查询 将 匹配 所 有 在 title 字 段 含有 crime 、and 或 punishment 词 条 的 文档 。 这 只 是 最 锁 
单 的 一 个 查询 ， 现 在 来 讨论 match 查 询 的 几 种 类 型 。 
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1. 布尔 值 匹 配 查询 

布尔 匹配 查询 分 析 提 供 的 文本 , 然后 做 出 布尔 查询 。 有 几 个 参数 允许 控制 布尔 查询 匹配 行为 ， 
如 下 所 示 。 
口 operator: 此 参数 可 以 接受 or 和 and， 控 制 用 来 连接 创建 的 布尔 条 件 的 布尔 运算 符 。 默 
认 值 是 or。 如 果 希 望 查询 中 的 所 有 条 件 都 匹配 ， 可 以 使 用 angd 运 算 符 。 
口 analyzer: 这 个 参数 定义 了 分 析 查 询 文本 时 用 到 的 分 析 器 的 名 字 。 默 认 值 为 qefault 
analyzero 
口 fuzziness: 可 以 通过 提供 此 参数 的 值 来 构建 模糊 查询 ( fazzy query )。 它 为 字符 串 类 
提供 从 0.0 到 1.0 的 值 。 构 造 模糊 查询 时 ， 该 参数 将 用 来 设置 相似 性 。 
口 prefix_length: 此 参数 可 以 控制 模糊 查询 的 行为 。 有 关 此 参数 值 的 更 多 信息 ， 请 参阅 

















但 





3.3.11 节 。 
口 max_expansions: 此 参数 可 以 控制 模糊 查询 的 行为 。 有 关 此 参数 值 的 更 多 信息 ， 请 参 
阅 3.3.11 节 。 





口 zero_terms_query: 该 参数 允许 指定 当 所 有 的 词 条 都 被 分 析 器 移 除 时 ( 例如 ， 因 为 停 
止 词 ),， 查询 的 行为 。 它 可 以 被 设置 为 none 或 a11， 默认 值 是 none。 在 分 析 器 移 除 所 有 查 
询 词 条 时 ， 该 参数 设置 为 none， 将 没有 文档 返回 ; 设置 为 a11， 则 将 返回 所 有 文档 。 

口 cutoff_frequency: 该 参数 允许 将 查询 分 解 成 两 组 : 一 组 低频 词 和 一 组 高 频 词 。 人 参阅 

3.3.4 节 ， 看 看 这 个 参数 怎么 用 。 


这 些 参数 应 该 封装 在 运行 查询 的 字段 名 称 里 。 所 以 如 果 想 对 tit1le 字 段 运 行 一 个 简单 的 布尔 
匹配 查询 ， 发 送 如 下 查询 : 


{ 
"query" : { 























"mateh™ $F 
"El 二 于 
"query" : "crime and punishment", 
"operator" : "and" 


} 
} 
} 
} 


2. match phrase 查询 
match_phrase 查 询 类 似 于 布尔 查询 ， 不 同 的 是 ， 它 从 分 析 后 的 文本 中 构建 短语 查询 ， 而 不 
是 布尔 子 句 。 该 查询 可 以 使 用 下 面 几 种 参数 。 
口 slop: 这 是 一 个 整数 值 ， 该 值 定义 了 文本 查询 中 的 词 条 和 词 条 之 间 可 以 有 多 少 个 未 知 词 
条 ， 以 被 视 为 跟 一 个 短语 匹配 。 此 参数 的 默认 值 是 >， 这 意味 着 ,不 允许 有 额外 的 词 条 ”。 














@ slop 为 I 时,“a b” 和 “a and b” 被 视 为 匹配 。 一 一 译 者 注 
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口 analyzer: 这 个 参数 定义 了 分 析 查 询 文 本 时 用 到 的 分 析 器 的 名 字 。 默 认 值 为 default 
analyzero 
下 面 是 一 段 对 title 字 上 段 进 行 hatch_phrase 查 询 的 示例 代码 : 


{ 


"query" : { 
"match phrase" : { 
7 
"query" : "crime punishment", 
WSLGB" 十 


} 
} 


注意 ,我 们 从 查询 中 移 除了 angd 一 词 ， 但 因为 slop 参 数 设 置 为 1， 它 仍 将 匹配 我 们 的 文档 。 








3. match_ phrase prefix 查 询 

match_query 查 询 的 最 后 一 种 类 型 是 match_ phrase_prefix 查 询 。 此 查询 跟 match_ 
phrase 查 询 几乎 一 样 ， 但 除 此 之 外 ， 它 允许 查询 文本 的 最 后 一 个 词 条 只 做 前 级 匹配 。 此 外 ， 除 
了 match_phrase 查 询 公 开 的 参数 ,还 公开 了 一 个 额外 参数 max_expansions。 这 个 参数 控制 有 
多 少 前 级 将 被 重 写成 最 后 的 词 条 ,我 们 的 示例 查询 若 改 用 match_phrase 前 级 来 写 , 将 如 下 所 示 : 


{ 

















"query" : { 
"match phrase prefix" : { 
1 帮主 车 
"gquery" : "crime and punishm", 
top .Ty 
"max_expansions" : 20 


» 
} 


注意 , 我 们 没有 提供 完整 的 “crime and punishment” 和 短语， 而 只 是 提供 “crime andpunishm ”， 


该 查询 仍 将 匹配 我 们 的 文档 。 

















3.3.6 multi match 查询 
multi_match 查 询 和 match 查 询 一 样 ， 不 同 的 是 它 不 是 针对 单个 字段 ， 而 是 可 以 通过 


fields 参 数 针对 多 个 字段 查询 。 当 然 ，match 查 询 中 可 以 使 用 的 所 有 参数 同样 可 以 在 multi_ 





match 查 询 中 使 用 。 所 以 ， 如 果 想 修改 match 查 询 ， 让 它 针 对 title 和 otitle 字 上 段 运行 ， 那么 
运行 以 下 查询 : 
{ 


rquery" : { 
"mlti mateh™ 3 { 
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"query" : "crime punishment", 
"fields" : [ "title", "otitle" ] 
} 
} 
} 


除了 之 前 提 到 的 参数 ，multi_matcn 查 询 还 可 以 使 用 以 下 额外 的 参数 来 控制 它 的 行为 。 

口 use_dis_max: 该 参数 定义 一 个 布尔 值 ， 设 置 为 Lrue 时 ,使 用 析 取 最 大 分 查询 ,设置 为 

false 时 ， 使 用 布尔 查询 。 默 认 值 为 true。3.3.18 节 将 讨论 更 多 细节 。 

口 tie_breaker: 只 有 在 use_aqis_max 人 参数 设 为 true 时 才 会 使 用 这 个 参数 。 它 指定 低 分 数 
项 和 最 高 分 数 项 之 间 的 平衡 。3.3.18 节 将 介绍 更 多 细节 。 











3.3.7 query _ string 查询 


相 比 其 他 可 用 的 查询 , suery_string 查 询 支 持 全 部 的 Apache Lucene 查 询 语法 , 1.5.3 节 讨论 
过 。 它 使 用 一 个 查询 解析 器 把 提供 的 文本 构建 成 实际 的 查询 ， 例 子 如 下 所 示 : 


"query" : { 
"query_string" : { 
"query" : "title:crime^10 +title:punishment -otitle:cat 
+author: (+Fyodor +dostoevsky)", 
"default fieLd" 和 "ETiELe” 
} 
} 
} 


我 们 已 经 熟悉 了 Lucene 查 询 语法 的 基础 知识 , 所 以 可 以 讨论 上 述 查 询 的 工作 原理 。 正 如 你 所 
看 到 的 , 我 们 想得到 在 title 字 段 中 包含 crime 词 条 的 文档 , 并 且 这 些 文档 应 该 有 10 的 加 权 。 接 下 
来 ， 我 们 希望 文档 在 tit1le 字 段 中 包含 punishment， 而 在 otitle 字 段 中 不 包含 cat。 最 后 ， 告 
诉 Lucene 我 们 只 希望 文档 的 author 字 段 中 包含 Fyodor 和 dostoevsky 词 条 。 


像 大 多 数 Elasticsearch 查 询 一 样 ，query_string 提 供 下 列 参数 控制 查询 行为 。 


口 suery: 此 参数 指定 查询 文本 。 

口 default_field: 此 参数 指定 默认 的 查询 字段 ， 默 认 值 由 index.query.default_ 
field 属 性 指定 ， 默 认为 _all。 
口 default_operator: 此 参数 指定 默认 的 逻辑 运算 符 ( or 或 ang )， 默 认 值 是 or。 

口 allow_leading_wildcard: 此 参数 指定 是 否 允许 通配符 作为 词 条 的 第 一 个 字符 ,默认 
值 为 true。 

口 1owercase_expand_terms :此 参数 指定 查询 重 写 是 否 把 词 条 变 成 小 写 ,默认 值 为 true， 
意味 着 重 写 后 的 词 条 将 小 写 。 

口 enable_position increments: 此 参数 指定 查询 结果 中 的 位 置 增 量 是 否 打 开 , 默认 值 


是 true。 































































































图 灵 社 区 会 员 打 顺 顺 (lvshun@live.cn) 专 享 尊重 版 权 





3.3 基本 查询 83 








D fuzzy_max_expansions: 使 用 模糊 查询 时 ， 此 参数 指定 模糊 查询 可 被 扩展 到 的 最 大 词 
条 数 ， 默 认 值 是 50。 
口 fuzzy_prefix_length: 此 参数 指定 生成 的 模糊 查询 中 的 前 级 长 度 ， 默 认 值 为 0。 欲 了 
解 更 多 信息 ， 请 参阅 3.3.11 节 。 
口 fuzzy_min_sim: 此 参数 指定 模糊 查询 的 最 小 相似 度 ， 默 认 值 为 0.5。 欲 了 解 更 多 信息 ， 
请 参阅 3.3.11 节 。 
口 phrase_slop: 此 参数 指定 短语 溢出 值 ， 默 认 值 为 0。 欲 了 解 更 多 信息 ， 请 参阅 3.3.5 节 。 
口 poost: 此 参数 指定 使 用 的 加 权 值 ， 默 认 值 为 1.0。 
口 analyze_wildcard: 此 参数 指定 是 否 应 该 分 析 通 配 符 查 询 生 成 的 词 条 ,默认 为 false， 
意味 着 词 条 不 会 被 分 析 。 
口 auto_generate_phrase_dqueries : 此 参数 间 定 是 否 自动 生成 短语 查询 。 其 默认 值 为 
false， 这 意味 着 不 会 自动 生成 。 
D minimum_should_match: 此 参数 控制 有 多 少 生成 的 Boolean should 子 句 必须 与 文档 
匹配 , 才能 认为 它 是 匹配 的 。 它 可 以 是 百分比 , 例如 50%， 这 意味 着 至 少 有 50% 的 给 定 词 
条 必须 匹配 。 它 也 可 以 是 整数 值 ， 如 2， 这 意味 着 至 少 2 个 词 条 必须 匹配 。 
口 lenient: 此 参数 的 取 值 true 或 false。 如 果 设 置 为 true， 格 式 方面 的 失败 将 被 忽略 。 
DisMax 是 Disjunction Max 的 缩写 。Disjunction 指 搜索 执行 可 以 路 多 个 字段 ， 每 个 字段 可 以 给 
予 不 同 的 权重 。Max 意 味 着 ， 对 于 给 定 词 条 ， 只 有 最 高 分 会 包括 在 最 后 的 文档 评分 中 ， 而 不 是 所 
有 包含 该 词 条 的 所 有 字段 分 数 之 和 ( 简单 的 布尔 查询 才 会 这 样 )。 
注意 ，Elasticsearch 可 以 重 写 query_string 查 询 ， 正 因为 如 此 ，Elasticsearch 使 我 们 能 够 传 
递 额 外 的 参数 来 控制 重 写 方法 。 有 关 此 过 程 的 详细 信息 ， 请 参阅 3.2 节 。 


针对 多 字段 的 query_string 查 询 


针对 多 个 字段 做 query_string 查 询 是 可 能 的 。 为 此 ， 需 要 在 查询 主体 中 提供 一 个 fielas 
参数 ， 它 是 个 持 有 字段 名 称 的 数组 。 有 两 种 方法 针对 多 个 字段 运行 query_string 查 询 ; 默认 方 
法 是 采用 布尔 查询 来 构造 查询 ， 另 一 种 是 使 用 最 大 分 查询 。 


使 用 最 大 分 查询 要 在 查询 主体 中 添加 use_dis_max 属 性 并 将 其 设置 为 true。 示 例 查询 如 下 : 


{ 










































































"query" : { 
"query_string" : { 
"query" : "crime punishment", 
"fieLds” 3 [Eile VoEitle.l, 
"use_dis max" : true 


} 
} 
} 
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3.3.8 ”simple query string 查询 





simple_query_string 查 询 使 用 Lucene 的 最 新 查询 解析 需 之 一 : SimpleQueryParsero 
类 似 字符 串 查 询 ， 它 接受 Lucene 查 询 语法 ; 然而 不 同 的 是 ，simple_query_string 查 询 在 解析 
错误 时 不 会 抛 出 异常 。 它 丢弃 查询 无 效 的 部 分 ， 执 行 其 余部 分 ， 示 例如 下 : 


BE st 
"simple query_string" : { 
"query" : "title:crime^10 +title:punishment -otitle:cat 
+author: (+Fyodor +dostoevsky)", 
"default_operator" : "and" 











3.3.9 ”标识 符 查询 


标识 符 查 询 是 一 个 简单 的 查询 ， 仪 用 提供 的 标识 符 来 过 滤 返 回 的 文档 。 此 查询 针对 内 部 的 
_uid 字 段 运行 ， 所 以 它 不 需要 启用 _iq 字 段 。 最 简单 的 版 本 类 似 于 下 面 的 代码 : 
{ 























"query" : { 
Ee 
"values" : [ WE 本 和 i ] 


} 
} 
} 


此 查询 只 返回 具有 values 数 组 中 一 个 标识 符 的 文档 。 也 可 以 把 标识 符 查 询 变 得 复杂 一 点 ， 
限制 文档 为 特定 的 类 型 。 例 如 ， 只 包括 book 类 型 的 文档 ， 发 出 以 下 查询 : 
{ 





"query" : { 
"ids" : { 
"type" : "book", 
"values" : [ “10"°, "1i1", "12", "13" ] 


} 
} 
} 


可 以 看 到 ， 我们 在 查询 中 添加 了 type 属 性 ， 并 设置 其 值 为 我 们 感 兴趣 的 类 型 。 





3.3.10 ”前缀 查询 


前 级 查询 在 配置 方面 来 说 跟 词 条 查询 类 似 。 前 级 查询 能 让 我 们 匹配 这 样 的 文档 : 它们 的 特定 
字段 以 给 定 的 前 级 开始 。 例 如 ， 想 找到 所 有 title 字 上 段 以 cri 开 始 的 文档 ， 可 以 运行 以 下 查询 : 
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与 词 条 查询 类 似 , 还 可 以 在 前 缀 查询 中 包含 加 权 属 性 ; 这 将 影响 到 给 定 前 级 的 重要 性 。 例如， 
改变 之 前 的 查询 ， 并 给 它 增加 3.0 的 加 权 ， 发 出 以 下 查询 : 














"query" { 
"prefix" : { 
em 二 半 
"Value" Wen 
"odst" 3 0 
} 
} 
} 
} 
Elasticsearch 会 把 前 级 查询 重 写 ， 也 允许 我 们 传递 额外 的 参数 来 控制 重 写 方 
人 


法 。 有 关 此 过 程 的 详细 信息 ， 请 参阅 3.2 节 。 


3.3.11 fuzzy _ Like this 查询 


fuzzy_like_this 查 询 类 似 于 more_1ike_this 查 询 。 它 查找 所 有 与 提供 的 文本 类 似 的 文 
档 ， 但 是 它 有 点 不 同 于 more_like_this 查 询 。 它 利用 模糊 字符 串 并 选择 生成 的 最 佳 差分 词 条 。 
如 果 针 对 title 和 otitle 字 段 的 fuzzy_like_this 查 询 来 查找 所 有 类 似 于 crime punishment 
的 文档 ， 可 以 运行 以 下 查询 : 

{ 




















"query" : { 
"fuzzy_like this" : { 
"fields" : ["title", "otitle"], 
"like text" : "crime punishment" 


} 
; 


fuzzy_like_this 查 询 支 持 以 下 查询 参数 。 

口 fields: 此 参数 定义 应 该 执行 查询 的 字段 数组 ， 默 认 值 是 _al1 字 段 。 

口 1ike_text: 这 是 一 个 必需 参数 ， 包 含 用 来 跟 文 档 比 较 的 文本 。 

口 ignore_tf; 此 参数 指定 在 相似 度 计算 期 间 ， 是 和 否 应 忽略 词 频 ， 默 认 值 为 false， 意 味 
着 将 使 用 词 频 。 
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口 max_query_terms: 此 参数 指定 生成 的 查询 中 能 包括 的 最 大 查询 词 条 数 ， 默 认 值 为 25。 
D min_similarity: 此 参数 指定 差分 词 条 ( differencing terms ) 应 该 有 的 最 小 相似 性 ， 默 
认 值 为 0.5。 

口 prefix_length: 此 参数 指定 差分 词 条 的 公共 前 缀 长 度 ， 默 认 值 为 0。 

口 boost: 此 参数 指定 使 用 的 加 权 值 ， 默 认 值 为 1.0。 

口 analyzer: 这 个 参数 定义 了 分 析 所 提供 文本 时 用 到 的 分 析 器 名 称 。 














3.3.12 fuzzy like this _ field 查询 








fuzzy_like_this_field 查 询 和 fuzzy_1ike_this 查 询 类 似 ,， 但 它 只 能 对 应 单个 字段 。 


正 因 为 如 此 ， 它 不 支持 多 字段 属性 。 作 为 百代 ， 应 该 把 查询 参数 封装 到 字段 名 称 中 。 查 询 title 
字段 的 一 个 示例 查询 类 似 于 下 面 这 样 : 

















{ 


"query" : { 
"fuzzy_like this field" : { 
Wp el = 
"like_ text" : "crime and punishment" 


} 
} 
} 
} 





fuzzy_like thi s 查 询 的 其 他 所 有 参数 也 可 以 用 在 fuz zy_like this_ fi elgd 中 。 


3.3.13 fuzzy 查询 

















fuzzy 查 询 是 模糊 查询 中 的 第 三 种 类 型 ， 它 基于 编辑 距离 算法 来 匹配 文档 。 编 辑 距 离 的 计算 
基于 我 们 提供 的 查询 词 条 和 被 搜索 文档 。 此 查询 很 占用 CPU 资源 , 但 当 需 要 模糊 匹配 时 它 很 有 用 ， 
例如 ， 当 用 户 拼写 错误 时 。 在 我 们 的 示例 中 ， 假 设 用 户 向 搜索 框 中 输入 单词 crme， 而 不 是 crime， 
运行 模糊 查询 的 最 简单 形式 如 下 所 示 : 












































查询 响应 如 下 所 示 : 
{ 


"took" : 1, 
"timed out" : false, 
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"_ shards" : { 
"total" : 5, 
"successful" : 5, 
"failed" : 0 

}s 

"hits" : { 
"total" : 1, 
"max score" : 0.15342641, 
"hits" : [ { 

"_ index" : "library", 

"_ type" : "book", 

"id"™ : "a", 

"_score" : 0.15342641, " source" : { "title": "Crime and 
Punishment","otitle": "IlpecTrynnéHne Wn HarkaséHne", 
"author": "Fyodor Dostoevsky","year": 1886, 
"characters": ["Raskolnikov", "Sofia Semyonovna 
Marmeladova"],"tags": [],"copies": 0, "available" : true} 

}] 
} 
} 


即使 犯 了 一 个 拼写 错误 ，Elasticsearch 仍 然 设 法 找到 我 们 感 兴趣 的 文档 。 
可 以 使 用 下 面 的 参数 来 控制 fuzzy 查 询 的 行为 。 


口 value: 此 参数 指定 了 实际 的 查询 。 

口 poost: 此 参数 指定 了 查询 的 加 权 值 ， 默 认为 1.0。 

口 min ee 此 参数 指定 了 一 个 词 条 被 算 作 匹配 所 必须 拥有 的 最 小 相似 度 。 对 字 

符 串 字段 来 说 ,这 个 值 应 该 在 0 到 1 之 间 , 包含 0 和 1。 对 于 数值 型 字段 , 这 个 值 可 以 大 于 1， 

a min_similarity 设 为 3， 则 可 以 得 到 17~23 的 值 。 对 于 日 期 字段 ， 可 
以 把 min_similarity 参 数值 设 为 19、2d、1im 等 ,分别 表示 1 天 、2 天 、1 个 月 。 

口 prefix_length: 此 参数 指定 差分 词 条 的 公共 前 缀 长 度 ， 默 认 值 为 0。 

口 max_expansions: 此 参数 指定 查询 可 被 扩展 到 的 最 大 词 条 数 ， 默 认 值 是 无 限制 。 


参数 应 该 封装 在 查询 针对 的 字段 名 称 里 。 所 以 如 果 想 修改 前 面 的 查询 ， 并 添加 额外 的 参数 ， 
查询 将 如 下 所 示 


{ 
































"query" : { 
Fi 3 帮 
7 区 人 攻 em 
"value" : "crme", 
"min similarity" : 0.2 
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3.3.14 ”通配符 查询 


通配符 查询 允许 我 们 在 查询 值 中 使 用 * 和 ?等 通配符 。 此 外 , 通配符 查询 跟 词 条 查询 在 内 容 方 
面 非常 类 似 。 可 以 发 送 一 下 查询 ， 来 匹配 所 有 包含 cr?me 词 条 的 文档 ， 这 里 ?表示 任意 字符 : 


{ 




















"query" : { 
"wildcard" : { 
"ETELeY. Teame" 


} 
} 
} 


这 将 匹配 title 字 段 中 包含 与 cr?me 匹 配 的 词 条 的 所 有 文档 。 然 后 ， 你 还 可 以 在 通配符 查询 
中 包含 加 权 属 性 ; 它 将 影响 每 个 与 给 定 值 匹配 的 词 条 的 重要 性 。 如 果 要 改变 之 前 的 查询 ,给 它 一 
个 20.0 的 加 权 ， 可 以 发 出 以 下 查询 : 


{ 
"query" : { 
"wildcard" : { 
七 并 盛开 总 于 
"value" : "cr?me", 
"boost" : 20.,0 
} 
} 
} 








二 
请 注意 , 通配符 查询 不 太 注 重 性 能 , 在 可 能 时 应 尽量 避免 ,特别 是 要 避免 前 
”组 通配符 (以 通配符 开始 的 词 条 ), 此外, 请 注意 Elasticsearch 会 重 写 通 配 符 查 询 ， 
NS 因此 EBlasticsearch 允 许 通过 一 个 额外 的 参数 控制 重 写 方法 。 有 关 此 过 程 的 详细 信 
息 ， 请 参阅 3.2 节 。 


3.3.15 more 1ike this 查询 


more_1ike_this 查 询 让 我 们 能 够 得 到 与 提供 的 文本 类 似 的 文档 ,Elasticsearch 支 持 几 个 参数 
来 定义 more_1ike_this 查 询 如 何 工 作 ， 如 下 所 示 。 


口 fields: 此 参数 定义 应 该 执行 查询 的 字段 数组 ， 默 认 值 是 _al1 字 段 。 

口 1ike_text: 这 是 一 个 必需 的 参数 ， 包 含 用 来 跟 文档 比较 的 文本 。 

口 percent_terms_to_match: 此 参数 定义 了 文档 需要 有 多 少 百分比 的 词 条 与 查询 匹配 才 
能 认为 是 类 似 的 ， 默 认 值 为 0.3 ， 意 思 是 30%。 

口 min_term freq: 此 参数 定义 了 文档 中 词 条 的 最 低 词 频 ， 低 于 此 频率 的 词 条 将 被 忽略 ， 
默认 值 为 2。 
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口 max_query_terms: 此 参数 指定 生成 的 查询 中 能 包括 的 最 大 查询 词 条 数 ， 默 认 值 为 25。 
值 越 大 ， 精 度 越 大 ， 但 性 能 也 越 低 。 

口 stop_words : 此 参数 定义 了 一 个 单词 的 数组 , 当 比 较 文 档 和 查询 时 , 这 些 单词 将 被 忽略 ， 
默认 值 为 空 数组 。 

口 min_qdoc_freq: 此 参数 定义 了 包含 某 词 条 的 文档 的 最 小 数目 , 低 于 此 数目 时 , 该 词 条 将 
被 忽略 ， 默 认 值 为 5， 意 味 着 一 个 词 条 至 少 应 该 出 现在 5 个 文档 中 ， 才 不 会 被 忽略 。 

口 max_doc_freq: 此 参数 定义 了 包含 某 词 条 的 文档 的 最 大 数目 , 高 于 此 数目 时 , 该 词 条 将 
被 忽略 ， 默 认 值 为 无 限制 。 

D min_word_len: 此 参数 定义 了 单词 的 最 小 长 度 , 低 于 此 长 度 的 单词 将 被 忽略 , 默认 值 为 0。 
口 max_worgd_len: 此 参数 定义 了 单词 的 最 大 长 度 , 高 于 此 长 度 的 单词 将 被 忽略 , 默认 值 为 
无 限制 。 

口 boost_terms: 此 参数 定义 了 用 于 每 个 词 条 的 加 权 值 ， 默 认 值 为 1。 

口 boost: 此 参数 定义 了 用 于 查询 的 加 权 值 ， 默 认 值 为 1。 

口 analyzer: 此 参数 指定 了 针对 我 们 提供 的 文本 的 分 析 器 名 称 。 
more_1ike_this 查 询 的 一 个 示例 如 下 所 示 : 

{ 
























































"query" : { 
"more_like this" : { 
"Fielde™ 2 “title; votitler 1], 
"like text" : "crime and punishment", 
"min term freq" : 1, 
"min doc freq" : 1 


} 
} 
} 


3.3.16 more like this filed 查询 


more_ like this_field 查 询 与 more _1ike_this 查 询 类 似 , 但 它 只 能 针对 单个 字段 。 正 
因为 如 此 ， 它 不 支持 多 字段 属性 。 我 们 把 查询 参数 封装 到 要 查询 的 字段 名 字 中 ， 而 不 是 指定 
fields 参 数 。 所 以 ,一 个 查询 title 字 上 段 的 示例 查询 如 下 : 


{ 























"query" : { 
"more_like this field" : { 
em 
"like text" : "crime and punishment", 
"min term freq" : 1, 
"min doc freq" : 1 


. 
} 
. 
} 
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more_like_this 查 询 中 的 所 有 其 他 参数 都 可 以 同样 的 方式 作用 于 more_1like_this 
filed 查 询 。 


3.3.17 ”范围 查询 


范围 查询 使 我 们 能 够 找到 在 某 一 字段 值 在 某 个 范围 里 的 文档 , 字段 可 以 是 数值 型 , 也 可 以 是 
基于 字符 串 的 (将 映射 到 一 个 不 同 的 Apache Lucene 查 询 )。 范 围 查 询 只 能 针对 单个 字段 ， 查 询 参 
数 应 封装 在 字段 名 称 中 。 范 围 查询 支持 以 下 参数 。 

口 gte: 范围 查询 将 匹配 字段 值 大 于 或 等 于 此 参数 值 的 文档 。 
口 gt: 范围 查询 将 匹配 字段 值 大 于 此 参数 值 的 文档 。 
口 Ite: 范围 查询 将 匹配 字段 值 小 于 或 等 于 此 参数 值 的 文档 。 
口 1t: 范围 查询 将 匹配 字段 值 小 于 此 参数 值 的 文档 。 


因此 ， 举 例 来 说 ， 要 找到 year 字 段 从 1700 到 1900 的 所 有 图 书 ， 可 以 运行 以 下 查询 : 
{ 







































































"query" : { 
"range" 2: { 
"year" : { 
rota" .£300 
"lte" : 1900 


} 
} 
} 
} 


3.3.18 ”最 大 分 查询 


最 大 分 查询 非常 有 用 ， 因 为 它 会 生成 一 个 由 所 有 子 查 询 返 回 的 文档 组 成 的 并 集 并 将 它 返 回 。 
这 个 查询 好 的 一 面 是 ， 我 们 可 以 控制 较 低 得 分 的 子 查 询 对 文档 最 后 得 分 的 影响 。 


文档 的 最 后 得 分 是 这 样 计算 的 : 最 高 分 数 的 子 查 询 的 得 分 之 和 , 加 上 其 余子 查询 的 得 分 之 和 
乘 以 tie 人 参数 的 值 。 所 以 ,可 以 通过 tie_breaker 人 参数 来 控制 较 低 得 分 的 查询 对 最 后 得 分 的 影响 。 
把 tie_breaker 设 为 1.0, 得 到 确切 的 总 和 ; 把 tie_breakezr 设 为 0.1， 结 果 ， 除 最 高 得 分 的 查 
询 外 ， 只 有 所 有 查询 总 得 分 的 10% 被 加 到 最 后 得 分 里 。 


一 个 最 大 分 查询 的 示例 如 下 所 示 : 


{ 
"aquery™ 全 { 
"dismax" : { 
"tie breaker" : 0.99, 
"boost" :10.,0'; 
"queries" : [ 


{ 
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"matel 二 € 
titler "orime" 
} 
ss 
{ 
"matelr ,A 
anthor™ 3 "Evodor” 


可 以 看 到 , 我 们 在 查询 中 包含 了 tie_breaker 和 boost 参 数 。 此 外 ,在 queries 参 数 中 指定 
了 一 组 查询 ， 这 些 查 询 将 执行 并 产生 结果 文档 的 并 集 。 








3.3.19 ”正则 表达 式 查询 


通过 正则 表达 式 查 询 ， 可 以 使 用 正则 表达 式 来 查询 文本 。 请 记 住 ,此 类 查询 的 性 能 取决 于 所 
选 的 正则 表达 式 。 如 果 我 们 的 正则 表达 式 匹 配 许多 词 条 ,查询 将 很 慢 。 一 般 规则 是 ,正则 表达 式 
匹配 的 词 条 数 越 高 ， 查 询 越 慢 。 


正则 表达 式 查询 示例 如 下 所 示 : 


{ 





























"query" : { 
"regexp" : { 
EELeT 党 攻 
"value" : "cr.m[lae]", 
noost" ,100 


} 
} 
} 
} 


上 述 查 询 将 被 Elasticsearch 重 写成 阁 干 个 词 条 查询 ,根据 索引 中 匹配 给 定 正则 表达 式 的 内 容 。 
查询 中 加 权 参 数 指定 了 生成 的 查询 将 使 用 的 加 权 值 。 





完整 的 Elasticsearch 支持 的 正则 表达 式 语 法 可 以 在 这 里 找到 : http:/www. 

lasticsearch.org/guide/en/elasticsearch/reference/current/query-dsl-regexp-uery.html#egexp- 
syntaxo 

3.4 复合 查询 


3.3 节 讨论 了 Elasticsearch 公 开 的 最 简单 查询 。 然 而 , Elasticsearch 提 供 的 不 只 如 此 。 顾名思义 ， 
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复合 查询 就 是 支持 可 以 把 多 个 查询 连接 起 来 ,或 者 改变 其 他 查询 的 行为 。 你 可 能 好 奇 自己 是 否 需 
要 这 样 的 功能 。 用 一 个 简单 的 练习 来 确定 : 结合 一 个 简单 的 词 条 查询 和 一 个 短语 查询 , 得 到 更 好 
的 搜索 结果 。 














3.4.1 布尔 查询 


可 以 通过 布尔 查询 来 封装 无 限 数量 的 查询 , 并 通过 下 面 描述 的 节点 之 一 使 用 一 个 逻辑 值 来 连 
接 它 们 。 


口 should: 被 它 封 装 的 布尔 查询 可 能 被 匹配 ,也 可 能 不 被 匹配 。 被 匹配 的 should 点 数目 
由 minimum_shoulgd_match 参 数控 制 。 

口 must: 被 它 封装 的 布尔 查询 必须 被 匹配 ， 文 档 才 会 返回 。 

口 must_not: 被 它 封装 的 布尔 查询 必须 不 被 匹配 ， 文 档 才 会 返回 。 


上 述 每 个 节点 都 可 以 在 单个 布尔 查询 中 出 现 多 次 。 这 允许 建立 非常 复杂 的 查询 ,， 有 多 个 蒂 套 
级 别 ( 在 一 个 布尔 查询 中 包含 男 一 个 布尔 查询 )。 记 住 ， 结 果 文 档 的 得 分 将 由 文档 匹配 的 所 有 封 
装 的 查询 得 分 总 和 计算 得 到 。 


除了 上 述 部 分 以 外 ， 还 可 以 在 查询 主体 中 添加 以 下 参数 控制 其 行为 。 


口 boost: 此 参数 指定 了 查询 使 用 的 加 权 值 , 默认 为 1.0。 加权 值 越 高 ,匹配 文档 的 得 分 越 高 。 
口 minimum_should_match: 此 参数 的 值 描述 了 文档 被 视 为 匹配 时 ， 应 该 匹配 的 shoula 
子 名 的 最 少数 量 。 人 举例 来 说 ， 它 可 以 是 个 整数 值 ， 比 如 2， 也 可 以 是 个 百分比 ， 比 如 75%。 
更 多 有 关 信 息 ， 参 见 http:/www.elasticsearch.org/guide/en/elasticsearch/reference/current/ 


uery-dsl-minimum-should-match.html。 


口 disable_coord: 此 参数 的 默认 值 为 false， 人 允许 启用 或 禁用 分 数 因子 的 计算 ， 该 计算 






































是 基于 文档 包含 的 所 有 查询 词 条 。 如 果 得 分 不 必 太 精确 ， 但 要 查询 快 点 ， 那 么 应 该 将 它 
设置 为 true。 


假设 我 们 想 要 找到 所 有 这 样 的 文档 : 在 title 字 段 中 含有 crime 词 条 , 并 且 year 字 段 可 以 在 
也 可 以 不 在 1900~2000 的 范围 里 ， 在 otit1le 字 段 中 不 可 以 包含 nothing 词 条 。 用 布尔 查询 的 话 ， 
类 似 于 下 面 的 代码 : 





"titLle. % verime" 


> 
"should" :44 
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"range" { 
"year" { 
i 
de 2000 
} 
} 
二 
must net i 
"term" : { 
"otitler : ‘mothing" 
} 
} 
} 
} 
} 
& 注意 : must，should 和 must_not 节 点 可 以 包含 单一 查询 ， 也 可 以 包含 多 
一 个 查询 。 


3.4.2 ”加 权 查 询 

加 权 查 询 封 装 了 两 个 查询 , 并 且 降 低 其 中 一 个 查询 返回 文档 的 得 分 。 加 权 查 询 中 有 三 个 节点 
需要 定义 : positive 部 分 , 包含 所 返回 文档 得 分 不 会 被 改变 的 查询 ; negative 部 分 , 返回 的 文 
档 得 分 将 被 降低 ; negative_boost 部 分 ， 包含 用 来 降低 negative 部 分 查询 得 分 的 加 权 值 。 

加 权 查 询 的 优点 是 ，positive 部 分 和 negative 部 分 包含 的 查询 结果 都 会 出 现在 搜索 结 
中 ， 而 某 些 查询 的 得 分 将 被 降低 。 如 果 使 用 布尔 查询 的 must_not 节 点 ， 将 得 不 到 这 样 的 结果 。 

假设 我 们 想 要 一 个 简单 的 词 条 查询 ， 查 询 title 字 段 中 含有 crime 词 条 ， 和 希望 这 样 的 文档 得 
分 不 被 改变 , 同时 要 year 字 段 在 1800~1900 内 的 文档 , 但 这 样 文档 的 得 分 要 有 一 个 0.5 的 加 权 。 这 
样 的 查询 如 下 所 示 : 


{ 











"query" : { 
rhoosting, ss 4 
"positive" : { 
"term" : { 
Veitler "orime" 
} 
js 
"negative" : { 
"range" : { 
"year" : { 
"from" : 1800, 
"Eo i E900 


» 
} 
}, 
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"negative_boost" : 0.5 
} 
} 
} 


3.4.3 constant score 查询 


constant_score 查 询 封装 了 另 一 个 查询 (或 过 滤 )， 并 为 每 一 个 所 封装 查询 (或 过 滤 ) 返 
回 的 文档 返回 一 个 常量 得 分 。 它 允许 我 们 严格 控制 与 一 个 查询 或 过 滤 匹 配 的 文档 得 分 。 如 果 和 希望 
tit1le 字 段 包含 crime 词 条 的 所 有 文档 的 得 分 为 2.0， 可 以 发 出 以 下 查询 : 




















{ 
"query" : { 
"constant_score" : { 
"query" : { 
= 
"Ele ,WOKELmME” 


3.4.4 索引 查询 


当 针对 多 个 索引 执行 查询 时 , 索引 查询 很 有 用 。 可 以 通过 indices 属 性 提供 一 个 索引 的 数组 
以 及 两 个 查询 ， 一 个 通过 suery 属 性 指定 ， 将 执行 在 指定 的 索引 列表 上 ; 男 一 个 通过 
no_match_qguery 属 性 指定 ， 将 执行 在 其 他 所 有 索引 上 。 假 设 我 们 有 一 个 别名 : books， 它 持 有 
两 个 索引 : 1ibrary 和 users， 我 们 希望 使 用 别名 ; 然而 ,我 们 希望 在 那些 索引 上 执行 不 同 的 查 
询 ， 为 此 ， 发 送 以 下 查询 : 


€ 
"query" : { 
"indices™" ; 4 
"indices™ 3 [ “iibrary" ]y 
"query" : { 
"term" : { 
EELEY "Grime" 


} 



































5 

"no_match query" : { 
"term" : { 

"USer™ % verime" 
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上 述 查 询 中 ，auery 属 性 中 的 查询 将 执行 在 1ibrary 索 引 上 ，no_match_query 属 性 中 的 查 
询 将 执行 在 集群 中 其 他 所 有 索引 上 。 

no_match_query 属 性 也 可 以 是 个 字符 串 值 ， 而 不 是 一 个 查询 。 这 个 字符 串 值 可 以 是 a11 或 
者 none， 上 默认 是 a11。 设置 为 a11， 索引 中 不 匹配 的 所 有 文档 都 会 返回 ; 设置 为 none， 索 引 中 不 
匹配 的 文档 将 不 会 返回 。 




















Elasticsearch 公 开 的 一 些 查 询 ， 如 custom_ score 查询 、custom_ 


boost_factor 查 询 和 custom filters_scores 查询 ， 已 经 被 function_ 
~ 一 score 查 询 取代 ，5.4.3 节 将 描述 。 我 们 决定 省 略 这 些 查询 的 描述 ， 因 为 它们 在 


Elasticsearch 的 未 来 版 本 中 可 能 会 被 删除 。 


3.5 查询 结果 的 过 滤 


本 书 已 经 介绍 了 如 何 使 用 不 同 的 条 件 和 查询 来 构建 查询 并 搜索 数据 。 我 们 还 熟知 了 评分 ( 参 
见 1.1.3 节 )， 它 告诉 我 们 在 给 定 的 查询 中 ， 哪 些 文档 更 重要 以 及 查询 文本 如 何 影 响 排序 。 然 而 ， 
有 时 我 们 可 能 要 在 不 影响 最 后 分 数 的 情况 下 , 选择 索引 中 的 某 个 子 集 ， 这 就 要 使 用 过 滤器 ( 当然 
不 是 唯一 的 原因 )。 

老实 说 ， 应 该 尽 可 能 使 用 过 滤器 。 过 滤器 不 影响 评分 ， 而 得 分 计算 让 搜索 变 得 复杂 ， 而 且 需 
要 CPU 资源 。 另 一 方面 ， 过滤 是 一 种 相对 简单 的 操作 。 由 于 过 滤 应 用 在 整个 索引 的 内 容 上 ,过 滤 
的 结果 独立 于 找到 的 文档 , 也 独立 于 文档 之 间 的 关系 。 过 滤器 很 容易 被 缓存 ， 从 而 进一步 提高 过 
滤 查 询 的 整体 性 能 。 

以 下 有 关 过 滤器 的 章节 中 , 我 们 使 用 post_filter 参 数 保持 例子 尽 可 能 地 简单 。 然 而, 请 记 住 ， 
如 果 可 能 ， 应 该 总 是 使 用 filtered 查 询 ， 而 不 是 post_filter， 因 为 filtered 执 行 起 来 更 快 。 


























3.5.1 使 用 过 滤器 


在 任何 搜索 中 使 用 过 滤器 ， 只 需 在 于 query 节 点 相同 级 别 上 添加 一 个 Eilter 节 点 。 如 果 你 
只 想 要 过 滤器 ， 也 可 以 完全 省 略 auery 节 点 。 来 看 一 个 示例 查询 ， 在 title 字 段 搜索 catch-22 
并 向 其 添加 过 滤器 ， 如 下 所 示 : 


{ 





"query" : { 

"match" : { "title" :; "Catch-22" } 
ji 
"post_filter" : 1{ 

"term" : { "year" : 1961 } 


} 
下 
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它 返 回 给 定 title 的 所 有 文档 , 但 结果 缩小 到 仅 在 1961 年 出 版 的 书 。 还 有 一 种 在 查询 中 包含 
过 滤器 的 方法 : 使 用 filtered 查 询 。 所 以 前 面 的 查询 可 以 重 写 如 下 : 








{ 
"query": { 
"filtered" : { 

"query" : { 
"match" : { "title" : "Catch-22" } 

> 

"ELILtEE™ 3 { 
"term" : { "year" : 1961 } 


} 
} 
} 
} 





如 果 发 送 curl -XGET localhost:9200/library/book/_search?pretty -d edquery. 
son 命 令 来 执行 两 个 查询 ， 你 将 看 到 它们 的 响应 完全 一 样 ( 可 能 除了 响应 时 间 ): 





{ 
"took" : 1, 
"timed out" : false, 
"_ shards" : { 
"total" : 5, 
"successful" : 5, 
"failed" : 0 
ya 
"hits" : { 
"total" : 1, 
"max score" : 0.2712221, 
"hits" : [ { 
" index" : "library", 
" type" : "book", 
"id™ 3 "2"5 
"_score" : 0.2712221, " source" : { "title": "Catch- 
22","author": "Joseph Heller","year": 1961, 
"characters": ["John Yossarian", "Captain Aardvark", 
"Chaplain Tappman", "Colonel Cathcart", 
"Doctor Daneeka"],"tags": ["novel"], 
"copies": 6, "available" : false} 
}] 
} 
} 


这 表明 两 种 形式 是 等 效 的 。 其 实 不 对 ， 因 为 它们 应 用 过 滤 和 搜索 的 顺序 是 不 同 的 。 在 第 一 种 
情况 下 ， 过 滤 需 应 用 到 查询 所 发 现 的 所 有 文档 上 。 第 二 种 情况 下 ， 过 滤 发 生 在 在 运行 查询 之 前 ， 
性 能 更 好 。 如 前 所 述 ， 过 滤器 很 快 ， 所 以 filtereqd 查 询 效率 更 高 。6.2 节 将 讨论 这 些 内 容 。 


3.5.2 ”过 滤器 类 型 
我 们 现在 已 经 知道 如 何 使 用 过 滤器 ， 也 知道 两 种 过 滤 方 法 的 区 别 。 现 在 看 看 Elasticsearch 提 
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供 的 过 滤器 类 型 。 
1. 范围 过 滤器 


范围 过 滤器 可 以 用 来 限制 只 搜索 那些 字段 值 在 给 定 边界 之 间 的 文档 。 例 如 , 为 了 创建 一 个 过 
滤器 来 过 滤 只 在 1930~1990 年 之 间 出 版 的 图 书 ， 在 查询 中 加 入 以 下 部 分 : 


"post_filter" : { 
"range" : { 
"year" : { 

"gte":s 1930, 

"lJte": 1990 


} 
} 
} 


使 用 gte 和 1te， 表 明 字 段 的 左右 边界 是 包含 的 。 如 果 想 排除 左右 边界 ， 可 以 使 用 gt 和 1t 参 
数 。 如 果 想 要 从 1930 年 ( 含 1930 ) 到 1990 年 (不 含 ) 的 文档 ， 构 造 下 列 过 滤器 : 














{ 
vost F111ter" 二 才 
"range" : { 
"year" : { 
"gte": 1930, 
"Et L990 
} 
} 
} 


总 结 如 下 。 


口 st: 大 于 。 
口 1t: 小 于 。 
口 gte: 大 于 或 等 于 。 
口 Ite: 小 于 或 等 于 。 


你 也 可 以 使 用 sxecution 参 数 。 这 是 一 个 对 引擎 如 何 执行 过 滤器 的 提示 ， 可 用 值 有 
fielddata 和 index。 一 般 的 经 验 是 : 在 范围 内 有 很 多 值 时 ，fieldaqata 能 提高 性 能 ( 以 及 内 存 
使 用 ); 范围 内 的 值 较 少 时 ，inqdex 应 该 更 好 。 


还 有 个 过 滤 需 的 变种 : numeric_filter。 这 是 一 个 特别 设计 的 版 本 ,用 来 过 滤 数 值 类 型 的 
值 。 此 过 滤器 更 快 ， 但 有 额外 的 内 存 使 用 ， 因 为 Elasticsearch 需 要 加 载 过 滤 字 段 的 值 。 请 注意 ， 
有 时 即使 不 使 用 范围 过 滤器 , 这 些 值 也 被 加 载 。 这 种 情况 发 生 在 我 们 使 用 相同 字段 做 切面 或 排序 
时 ， 没 有 理由 不 使 用 此 过 滤 顺 。 
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2. exists 过 滤器 


exists 过 滤器 非常 简单 。 它 过 滤 掉 给 定 字段 上 没有 值 的 文档 。 比 如 ， 考 虑 下 面 的 代码 : 


{ 
"post_filter" : { 
"exists" : { "field": "year" } 
} 
} 


述 过 滤器 将 只 返回 year 字 段 有 值 的 文档 。 
3.missing 过 滤器 


missing 过 滤 需 跟 exists 过 滤 需 相反 ， 它 过 滤 掉 给 定 字段 上 有 值 的 文档 。 然 而 ， 它 还 有 一 
些 额外 的 功能 。 除 了 选择 指定 字段 缺失 的 文档 ， 可 以 指定 Elasticsearch 对 空 字 段 的 定义 。 这 有 助 
于 在 输入 数据 中 包含 hull1、EMPTY、not-defined 等 词 条 的 情况 。 我 们 修改 先前 的 例子 ， 找 没 


有 定义 year 字 有 段 、 或 者 year 字 上 段 为 0 的 那些 文档 。 修 改过 的 过 滤器 将 如 下 所 示 : 
{ 
"OSt E11tErE™ i { 
"missing" : { 
"field": "year", 
"null_value": 0, 
"existence": true 
} 
} 
} 


在 前 面 的 示例 中 ， 有 两 个 额外 参数 。existence 参 数 告诉 Elasticsearch 应 该 检查 指定 字段 上 
存在 值 的 文档 ， null_value 参 数 定义 了 应 该 被 视 为 空 的 额外 值 。 如 果 你 没有 定义 null_value， 
existence 将 被 设 为 默认 值 ; 所 以 ， 在 这 个 例子 中 可 以 省 略 existence。 

4. 脚本 过 滤器 

有 时, 我 们 想 要 通过 计算 值 来 过 滤 文 档 。 一 个 例子 是 : 可 以 过 滤 掉 所 有 发 表 在 一 个 世纪 以 前 
的 书 。 使 用 脚本 过 滤器 来 实现 ， 如 下 所 示 : 

{ 


"Bost_filter" : { 
VeeriBt™ 坟 朱 
"script" : "now - doc['year'] .value > 100"， 
"params" : { 


"now" : 2012 
} 
} 
} 
} 
} 


可 以 看 到 , 我 们 使 用 了 一 个 简单 的 脚本 来 计算 值 , 并 从 中 过 滤 数 据 。5.2 节 将 讨论 Elasticsearch 
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的 更 多 脚本 功能 。 
5. 类 型 过 滤器 


类 型 过 滤器 专门 用 来 限制 文档 的 类 型 。 当 查询 运行 在 多 个 索引 上 ，, 或 单个 索引 但 有 很 多 类 型 
时 ， 可 以 使 用 这 个 过 滤器 。 例 如 ， 想 限制 返回 文档 的 类 型 为 book， 使 用 下 列 过 滤器 : 
{ 





"post_filter" : { 
nn type nn : { 
"value" : "book" 


} 
} 
’ 


6. 限定 过 滤器 


限定 过 滤 右 限定 单个 分 片 返回 的 文档 数目 。 不 要 把 它 跟 size 参 数 混在 一 起 。 作 为 例子 ,我 
们 看 看 下 面 的 过 滤器 : 
{ 
"post_filter" : { 
"limit" : { 
"value" : 1 
} 
} 
} 
当 我 们 对 分 片 数量 使 用 默认 设置 时 ， 上 述 过 滤器 返回 $ 个 文档 。 因 为 在 Elasticsearch 中 ， 索 引 
默认 分 为 5 个 分 片 。 查 询 分 别 运行 在 各 个 分 片上 ， 而 每 个 分 片 最 多 返回 1 个 文档 。 


7. 标识 符 过 滤器 


需要 过 滤 成 若干 具体 的 文档 时 ,可 以 使 用 标识 符 过 滤器 。 例 如 ,要 排除 标识 符 等 于 1 的 文档 ， 
可 使 用 类 似 下 面 的 代码 : 
{ 
"ost filter™;: { 
TB 
"type": ["book"], 
"values": [1] 
} 
} 
} 


注意 ，type 人 参数 不 是 必需 的 。 然 而 ， 当 我 们 在 几 个 索引 中 搜索 ， 又 想 指定 一 个 感 兴趣 的 类 
型 时 ， 它 还 是 有 用 的 。 


8. 如 果 还 不 够 
目前 为 止 ， 我 们 讨论 了 几 个 在 Elasticsearch 使 用 过 滤器 的 例子 。 然 而 ， 这 只 是 冰山 一 角 。 你 
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可 以 在 过 滤器 中 封装 几乎 所 有 查询 。 例 如 ， 让 我 们 来 看 看 下 面 的 查询 : 


{ 
"query" : { 
"multi match" : { 
"query" : "novel erich", 
"fields" : [ “tags", "author™" ] 
} 
} 


} 
上 述 示例 显示 了 一 个 我 们 熟知 的 简单 multi_match 查 询 。 可 以 用 过 滤器 按 如 下 方式 重 写 此 
查询 : 


"post_filter" : { 
"query" : { 
"multi match" : { 
"query" : "novel erich", 
"fielde™ 2 [| "tags", "duthnor" ] 

















当然 ， 唯 一 的 区 别 是 得 分 。 过 滤器 返回 的 每 个 文档 得 分 都 是 1.0。 注 意 ，Elasticsearch 有 几 个 
专用 过 滤器 是 这 样 工作 的 ( 比如 与 词 条 查询 对 应 的 词 条 过 滤器 )。 所 以 ， 你 不 必 总 是 使 用 封装 查 
询 语法 。 事 实 上 ， 你 应 该 尽量 使 用 专用 的 过 滤器 版 本 。 


Elasticsearch 支 持 下 列 专用 过 滤器 : 


口 boo1 过 滤 需 ; 

口 geo_shape 过 滤器 ; 
口 has_chi1dq 过 滤器 ; 
口 has_parent 过 滤器 ; 
口 idas 过 滤器 ; 

D indqices 过 滤 句 ; 
口 match_al1 过 滤器 ; 
口 nestedq 过 滤器 ; 

口 prefix 过 滤器 ; 

口 range 过 滤器 ; 

口 *egexp 过 滤器 ; 

口 tezm 过 滤器 ; 

口 terms 过 滤 右 。 
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9. 组 合 过 滤器 


现在 ， 是 时 候 把 一 些 过 滤器 组 合 在 一 起 了 。 第 一 个 选择 是 使 用 boo1 过 滤器 ， 它 能 够 在 3.4.1 
节 所 述 原理 的 基础 上 组 合 过 滤器 。 第 二 种 选择 是 使 用 ana、or 和 not 过 滤器 。andq 过 滤 咒 使 用 一 
个 过 滤器 数组 并 返回 与 该 数组 中 的 所 有 过 滤器 匹配 的 文档 。oz 过 滤器 也 使 用 一 个 数组 , 但 它 返 回 
与 数组 中 任何 一 个 过 滤 顺 匹配 的 文档 。 至 于 not 过 滤 需 , 则 返回 与 所 封装 的 过 滤 需 不 匹配 的 文档 。 
当然 ， 所 有 这 些 过 滤器 可 以 骨 套 使 用 ， 如 以 下 示例 所 示 : 


{ 
SOSt {filter™s 《 
"mot: 
"and": [ 
{ 
"term": { 
"title": "Cateh=22" 



































"year": { 
"gte": 1930, 
"lte": 1990 

} 

} 
hs 
{ 
"term": { 


"available": true 


@ 关于 bool 过 滤器 


当然 ， 你 可 能 会 问 poo1 过 滤器 与 anda、or 、not 过 滤器 之 间 的 区 别 。 首 先 ， 这 些 过 滤器 可 以 
互 换 人 使用。 当然 ， 从 返回 的 结果 角度 是 对 的 ， 但 从 性 能 角度 则 不 然 。 


我 们 可 以 看 到 Elasticsearch 在 内 部 为 每 个 过 滤器 都 建立 了 一 个 叫 bitset 的 结构 ， 它 保存 着 索引 
中 的 后 续 文 档 是 否 跟 过 滤器 匹配 的 信息 .bitset 很 容易 被 缓存 并 在 使 用 相同 过 滤器 的 所 有 查询 中 重 
用 。 这 是 Elasticsearch 的 一 种 简便 、 高 效 的 任务 。 总 之 ， 尽 可 能 使 用 bool 过 滤器 。 可 惜 ， 现 实生 
活 不 总 是 这 么 简单 。 某 些 类 型 的 过 滤 右 没有 能 力 直 接 创 建 bitset。 在 这 罕见 的 情形 下 ，bool 筛 选 
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器 将 更 低 效 。 你 已 经 知道 有 两 个 这 样 的 过 滤器 : 数值 型 的 范围 过 滤器 和 脚本 过 滤器 。 第 三 个 是 使 
用 地 理 坐 标的 整 组 过 滤器 ，6.2.10 将 对 此 进行 讨论 。 

10. 命名 过 滤器 

设置 过 滤 需 可 能 很 复杂 ,所 以 有 时 候 , 如 果 知 道 哪些 过 滤 需 用 来 决定 查询 应 该 返回 哪些 文档 ， 
无 疑 是 很 有 帮助 的 。 幸 好 ， 可 以 给 每 个 过 滤器 命名 ， 名 字 将 随 着 匹配 文档 返回 。 来 看 看 它 是 如 何 
工作 的 。 以 下 查询 将 返回 所 有 可 用 并 且 标 签 为 novel ， 或 者 来 自 19 世 纪 的 书 : 
































{ 
"query": { 
"filtered" : { 
"uery™.s, { maten all™ ss 93 
下 在 于 于 巷 启 天 深意 
toegt ST 
{ "umnd"* [ 
{ "term": { "available" : true } }, 
{ "term": { "tags" : "novel" } } 
] 3 
{ "range" : { "year" : { "gte": 1800, "lte" : 1899 } } } 
] 
} 
} 
} 


} 
我 们 使 用 查询 的 filtered 版 本 ， 因 为 它 是 Elasticsearch 中 唯一 可 以 添加 过 滤器 信息 的 版 本 。 
我 们 重 写 该 查询 以 添加 每 个 过 滤器 的 名 字 ， 如 下 所 示 : 

















{ 
"query": { 
"filtered" : { 
"duery": { "match all” ss {} }; 
wTLEerY i 撑 
Te 
"ELtere 
{ 
Wan 
二 二 下 七 全 下 作风 二 
"term": { 
"available" : true, 
"_ name" : "avail" 
} 
3 
{ 
"term": { 
Teags” "novel", 
_name" "tag" 
} 
} 
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"_name" : "and" 
} 
}s 
. 
"range" : { 
"year" : { 
"gte": 1800, 
"Jte” : £899 
二 
"_name" "year" 
} 
} 
| 
"_name" "OE"™ 


| 3 


可 以 看 到 ， 我 们 在 每 个 过 滤器 中 添加 了 _name 属 性 。 对 于 anda 和 or 过 滤器 ， 需 要 改变 语法 。 
所 以 ， 用 额外 的 对 象 封装 了 所 附 过 滤器 ， 以 得 到 正确 的 JSON 格 式 。 发 送 此 查询 ， 应 该 得 到 类 似 
下 面 的 响应 : 





{ 

"took" : 2， 

"timed out" : false, 

"_ shards" : { 
"total" : 2, 
"successful" : 2, 
"failed" : 0 

}s 


"hits" : { 
"total" : 2, 
"max_ score" : 1.0, 
"hits" : [ { 

"_ index" : "library", 

"_type" : "book", 

"id" : "1", 

"_score" : 1.0, "_ source" : { "title": "All Quiet on the 
Western Front","otitle": "Im Westen nichts Neues", 
"author": "Erich Maria Remarque","year": 1929, 
"characters": ["Paul Biumer", "Albert Kropp", 
"Haie Westhus", "Fredrich Miiller", 

"Stanislaus Katczinsky", "Tjaden"], 
"tags": ["novel"],"copies": 1, "available": true}, 

"matched queries" : [ "or", "tag", "avail", "and" ] 

}, 1 

"_ index" : "library", 

"_type" : "book", 

" id" : "a4", 

"_score" : 1.0, "_ source" : { "title": "Crime and 
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Punishment","otitle": "IlpecTynnéHne MX HaKaSaHIXeny 
"author": "Fyodor Dostoevsky","year": 1886, 
"characters": ["Raskolnikov", "Sofia Semyonovna 
Marmeladova"],"tags": [],"copies": 0, "available" : true}, 

"matched queries" : [ "or", "year", "avail" ] 

}] 
} 
} 





你 可 以 看 到 , 除了 标准 信息 以 外 , 每 个 文档 包含 一 个 表 , 包含 与 该 特定 文档 匹配 的 过 滤器 名 称 。 


记 住 在 大 多 数 情况 下 ,filtered 查 询 比 bost_filter 更 快 。 所 以 在 可 能 的 
~ 情况 下 ， 尽 可 能 使 用 filtered 查 询 。 


3.5.3 ”过 滤器 的 缓存 


关于 过 滤器 最 后 要 提 到 的 是 缓 看。 缓存 加 速 了 使 用 过 滤器 的 查询 , 代价 是 第 一 次 执行 过 滤器 
时 的 内 存 成 本 和 查询 时 间 。 因 此 ,缓存 的 最 佳 选 择 是 那些 可 以 重复 使 用 的 过 滤器 ， 例 如 ， 经 常会 
使 用 并 包括 参数 值 的 那些 。 

缓存 可 以 在 and、bool .or 过 滤器 上 打开 ( 但 通常 ， 绥 存 它们 所 附 的 过 滤器 才 是 更 好 的 主意 庆 
在 这 种 情况 下 ， 所 需 的 语法 与 前 面 命名 过 滤器 所 描述 的 一 样 ， 如 下 所 示 : 


























下 
"post_filter" : { 
eh a hw 
"_cache": true, 
"script" : "now - doc['year'] .value > 100", 
1 
"now" : 2012 


} 
} 
} 
} 




















有 些 过 滤 右 不 支持 _cache 参 数 ， 因 为 它们 的 结果 总 是 被 缓存 。 默 认 情 况 下 是 下 面 这 些 : 


DQ exists 
DQ missing 
D range 


D term 





口 terms 


可 通过 关闭 缓存 来 修改 此 行为 ， 代 码 如 下 所 示 : 


{ 


"ost filter";: { 
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"term": { 
"_cache": false, 
"year": 1961 


} 
对 于 iaqas 过 滤器 、match_al1 过 滤器 和 1imit 过 滤 需 ， 绥 存 是 无 效 的 。 








你 可 能 听 说 过 高 亮 显 示 , 即使 不 熟悉 这 个 名 字 , 也 可 能 在 你 访问 过 的 网 页 中 看 过 高 亮 显 示 的 
结果 。 高 亮 显示 是 在 结果 文档 中 显示 查询 中 的 哪个 或 哪些 单词 被 匹配 的 过 程 。 例 如 , 在 谷歌 搜索 EE 
lucene 这 个 词 ， 我 们 会 看 到 它 在 结果 列表 中 以 粗 体 显示 ， 如 下 面 的 截图 所 示 : 











Go gle ucene v 区 


Web Images deos Books Maps More ~ Search tools 





Cookies help us deliver our Services. By using our services, you agree to our use of 
cookies. 


Learn more | seta | 


Apache Lucene - Apache Lucene Core 
lucene.apache.org/core/ 
Apache LUceneTM is a high-performance, full-featured text search engine library 
written entirely in Java. Itis a technology suitable for nearly any application that 
Documentation - Download - Lucene 4.6.0 Documentation - Tutorials 






Apache Lucene - Welcometo Apache Lucene 
https:Mucene.apache.org/! ~ 

The Apache Lucene/Solr committers decided with a large majority on the vote to 
require Java 7 for the next minor release of Apache Lucene and Apache Solr 


Apache Lucene Net 

https:/Mucenenet.apache.org/ ~ 

Lucene.Netis a port of the Lucene search engine library, written in C# and targeted 
at .NET runtime users. The Lucene search library is based on an inverted 


Features - Apache Lucene - - The Apache Software Foundation! 
https://lucene.apache.org/core/features.html ~ 
LuceneTM Features. Lucene offers powerful features through a simple API 


Lucene - Wikipedia, the free encyclopedia 
en.wikipedia.orgiwikilLucene ~ 

Apache Lucene is a free/lopen source information retrieval software library, originally 
created in Java by Doug Cutting. ltis supported by the Apache Software 

History - Features and common use - Lucene-based projects - Users 


本 章 将 展示 如 何 使 用 Elasticsearch 高 亮 能 力 来 加 强 我 们 的 应 用 ， 使 结果 高 亮 显示 。 











3.6.1 高 亮 显示 入 门 


要 展示 高 亮 显示 是 如 何 工 作 的 ， 最 好 的 办 法 是 创建 一 个 查询 ， 看 看 Elasticsearch 返 回 的 结果 。 
所 以 假设 我 们 想 高 亮 显示 在 title 字 段 中 匹配 的 单词 ， 以 改善 用 户 的 搜索 体验 。 我 们 还 是 来 搜索 
crime 一 词 ， 为 了 得 到 具有 高 亮 的 结果 ， 发 送 如 下 查询 : 
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"query" : { 
"term" : { 
ELE wime. 
} 
} 
"nighliaqht™ :HF 
"ELOY 二 还 
"title" 全 3 


} 
这 个 查询 的 响应 看 起 来 如 下 所 示 : 


{ 

"took" : 2， 

"timed out" : false, 

"_shards" : { 
"total" : 5, 
"successful" : 5, 
"failed" : 0 

上 

"hits" : { 
"total™ 1s 
"max_ score" : 0.19178301, 
"hits" : [ { 

" index" : "library", 

" type" : "book", 

"ia : "a", 

"_score" : 0.19178301, " source" : { "title": "Crime and 
Punishment","otitle": "IlpecTynnéHne Wn HaKaSaHIXeny 
"author": "Fyodor Dostoevsky","year": 1886, 
"characters": ["Raskolnikov", "Sofia Semyonovna 
Marmeladova"],"tags": [],"copies": 0, "available" : true}, 

"highlight" : { 

"title" : [ "<em>Crime</em> and Punishment" ] 

} 

}] 
} 
} 


可 以 看 到 ， 除 了 从 Elasticsearch 得 到 的 标准 信息 ， 有 一 个 新 的 名 为 highlight 的 部 分 。 
Elasticsearch 使 用 <em> 这 个 HTML 标签 来 包含 高 亮 部 分 。 这 是 Elasticsearch 的 默认 行为 ， 我 们 将 学 
习 如 何 去 改 变 它 。 


3.6.2 ”字段 配置 


为 了 执行 高 亮 显示 ， 需 要 呈现 字段 的 原始 内 容 : 我 们 必须 把 这 些 用 来 高 亮 显示 的 字段 设 为 
stored， 或 者 把 这 些 字 段 包 含 在 _source 字 段 中 。 
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3.6.3 ”深入 底层 


Elasticsearch 在 底层 使 用 Apache Lucene， 而 高 亮 显示 是 Lucene 库 的 功能 之 一 。Lucene 提 供 了 
三 种 类 型 的 高 亮 实现 : 标准 类 型 ， 就 是 我 们 刚刚 使 用 的 ; 第 二 种 叫 FastVectorHigh1Lighter， 
它 需 要 词 向 量 和 位 置 才能 工作 ; 第 三 种 叫 PostingsHighlighter， 本 章 的 最 后 将 讨论 它 。 
Elasticsearch 自动 选择 正确 的 高 亮 实现 方式 : 如 果 字 段 的 配置 中 ，term_vector 属 性 设 成 了 
with positions_offsets， 则 将 使 用 FastVvectorHighlighter。 


























然而 ， 必 须 记 住 ， 使 用 词 向 量 将 导致 索引 变 大 ， 但 高 亮 显示 的 执行 需要 更 少 的 时 间 。 此 外 ， 
对 于 存储 了 大 量 数 据 的 字段 来 说 ， 推 荐 使 用 pastvectorHighlighter 





3.6.4 配置 HTML 标签 


我 们 已 经 提 到 ， 改 变 默 认 的 HTML 标签 成 我 们 想 用 的 标签 是 可 能 的 。 例 如 ， 假 设 要 使 用 标准 
的 HTML<b> 标 签 来 高 亮 。 为 此 ， 我 们 应 分 别 设置 pre_tags 和 post_tags 这 些 属 性 (它们 是 类 
组 ) 为 <b> 和 </b>。 既 然 提 到 的 两 个 属性 为 数组 ， 可 以 包含 多 个 标签 ，Elasticsearch 将 使 用 定义 
的 每 个 标签 来 高 亮 显示 不 同 的 单词 。 所 以 ， 我 们 的 示例 查询 如 下 所 示 : 




















}:; 
"mioghnlidgqht™ : { 
"re tays” 3: [ *<bx" 1] 
most Tavs % | “eA 1], 
fieLde™ i A 
ErtLe™ 3 i({} 
} 
} 
} 


对 上 述 查 询 ，Elasticsearch 返 回 的 结果 如 下 所 示 : 





{ 

"took" : 2， 

"timed out" : false, 

"_ shards" : { 
"total" : 5, 
"successful" : 5, 
"failed" : 0 

}, 

"hits" : { 
"total" : 1, 
"max score" : 0.19178301, 
"hits" : [ { 
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" index" : "library", 

" type" : "book", 

"id : "a", 

"_score" : 0.19178301, " source" : { "title": "Crime and 
Punishment","otitle": "IlpecTynnéHne Wn HakrkaséHne", 
"author": "Fyodor Dostoevsky","year": 1886, 

"characters": ["Raskolnikov", "Sofia Semyonovna 

Marmeladova"],"tags": [],"copies": 0, "available" : true}, 
"highlight" : { 

"title" : [ "<b>Crime</b> and Punishment" ] 





可 以 看 到 ，tit1le 字 段 中 的 crime， 被 我 们 选择 的 标签 包围 。 


3.6.5 ”控制 高 亮片 段 

Elasticsearch 人 允许 我 们 控制 高 亮片 段 的 数量 以 及 它们 的 大 小 ， 为 此 公开 了 两 个 属性 供 使 用 。 
第 一 个 ，number_of fragments， 定 义 Elasticsearch 返 回 的 片段 数量 ， 默 认 值 为 5。 把 这 个 属性 
设置 为 0， 将 导致 整个 字段 被 返回 ,这 对 短 字段 来 说 是 很 便利 的 ; 然而 ,对 长 字段 来 说 代价 较 大 。 
第 二 个 属性 是 Eragment_size， 用 来 指定 高 亮片 段 的 最 大 字符 长 度 ， 默 认 值 是 100。 












































3.6.6 ”全 局 设置 与 局 部 设 


前 面 讨 论 的 高 亮 显示 的 属性 ,可 以 设 在 全 局 范围 ,也 可 以 设 在 每 个 字段 上 。 全 局 设置 将 用 在 
没有 做 局 部 设置 的 所 有 字段 上 ， 它 跟 高 亮 对 象 的 fields 节 点 设 在 同一 个 级 别 上 ， 如 下 所 示 : 











"titLe. i Merime" 


"nighlight" 二 证 
retage 六 二 ] 
"Dost tags" [ "</b>" ]， 
"fields" : 寺 

"ee 人 A 

} 

} 

} 


也 可 以 为 每 个 字段 设置 这 些 属性 。 比 如 , 除了 title 字 段 ,我们 想 对 其 他 字段 保持 默认 行为 ， 
可 以 使 用 下 面 的 代码 : 
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En 
} 
js 
"highlight" : { 
"fields" : { 
bo 二 于 
七 ES 【Den |] 


} 
} 
; 
} 


可 以 看 到 ， 我 们 把 它 放 在 指定 title 字 有 段 行为 的 空 ]SON 对 象 里 面 ， 而 不 是 与 fijelds 同 一 水 
平 线 上 的 部 分 中 。 当 然 ， 每 个 字段 可 配置 为 不 同 的 属性 。 








3.6.7 需要 匹配 


有 了 时， 尤其 是 在 使 用 多 个 高 亮 字段 时 ， 只 需要 显示 跟 查 询 匹 配 的 字段 。 为 了 触发 此 行为 ， 要 
把 require_field_match 属 性 设 为 true。 把 该 属性 设 为 false 将 导致 所 有 词 条 都 高 之 显示, 即 
使 是 在 跟 查 询 不 匹配 的 字段 中 。 

为 了 看 它 是 如 何 工作 的 ,创建 一 个 新 的 索引 users， 并 创建 一 个 文档 到 这 个 索引 中 ， 发送 如 
下 命令 : 


Curl -XPUT 'http://1Localhost :9200/userSs/user/1' -d '{ 
"name" : "Test user", 
"description" : "Test document" 

于 


现在 ， 假 设想 高 之 显示 name 和 description 字 段 ， 查 询 如 下 所 示 : 























"name" : "test" 


"mioghnlioght” : { 
"fields" : { 
"name" 3 { pre tags™ 3 [ "<b>" ] "Post. tags™ 3 | "</b>"™ J] 
5 
"desceription" (人 "pre. tags™ 二 [ "<B>™ ] "post. tags™ ” [ 
"</b>" ] } 


上 述 查 询 的 结果 如 下 所 示 : 


{ 
"took" : 3, 
"timed out" : false, 
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"_ shards" : { 
"total" : 5, 
"successful" : 5, 
"failed" : 0 
J 
"hits" : { 
"total" : 1, 
"max_ score" : 0.19178301, 
"hits" : [ { 
" index" : "users"™, 
" type" : "user", 
™ dd s "1™; 
"_score" : 0.19178301, " source" : {"name" : "Test 
user", "description" : "Test document"}, 
"highlight" : { 
"description" : [ "<b>Test</b> document" ]， 
"name" : [ "<b>Test</b> user" ] 
}] 
} 
} 





注意 ， 即 使 我 们 只 匹配 name 字 段 ， 得 到 的 结 


下 ， 我 们 不 希望 这 样 。 所 以 现在 修改 查询 ， 使 用 reauire_field_match 
{ 
"query" : { 
"term" : { 
"name" "test" 
} 
二 
"nighlight" 人 4{ 
"require field match" : "true", 
"fields" : { 
"name" : { "pre_tags" Lb eb 1 "oot tags” | 
j 
"description" : { "pre tags" : [ "<b>" ], "post_tags" 
TAB> 寺 


} 
看 看 修改 过 的 查询 得 到 的 结果 ， 如 下 所 示 : 


"took" : 2， 
"timed out" : 
"_shards" : { 
"total" : 5, 
"successful" : 
"failed" : 0 
a 
"hits" : 


false, 


5, 


{ 
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却 高 亮 显示 了 上 述 两 个 字段 。 在 大 多 数 情 况 





属性 如 下 : 


] 


[ 





"total" : 1, 
"max_ score" : 0.19178301, 
"hits" : [ { 
" index" : "users", 
"_ type" : "user", 
"_ id" : "1", 
"_score" : 0.19178301, "_ source" : {"name" : "Test 
user","description" : "Test document"}, 
"highlight" : { 
"name" : [ "<b>Test</b> user" ] 





可 以 看 到 ，Elasticsearch 只 在 高 亮 中 返回 匹配 字段 ， 在 我 们 的 例子 中 是 name 字 段 。 


3.6.8 ”信息 高 亮 器 


现在 来 讨论 一 下 Elasticsearch 中 的 第 三 种 高 亮 显 示 类 型 。 它 在 Elasticsearch 0.90.6 中 被 加 入 ， 
与 前 两 种 类 型 略 有 不 同 ,我 们 通过 下 面 的 例子 来 看 看 这 些 区 别 。 当 字段 定义 中 的 indaex_options 
属性 设 成 offsets 时 ， 自动 运用 PostingsHighlighter。 所 以 ， 为 了 演示 PostingsHighlighter 
是 如 何 工 作 的 ， 我 们 将 用 正确 的 映射 创建 一 个 简单 的 索引 。 为 此 ， 执 行 以 下 命令 : 


curl -XPUT 'localhost:9200/h]l test' 
Curl -XPOST 'localhost:9200/hl test/doc/ mapping' -d '{ 
"doc" : { 
"properties" : { 
"contents" : { 
"type" : "string", 
"fields" : { 
"Ps" : { "type" : "string", "index options" : "offsets" } 
} 
} 
} 











} 


}, 
. 请 记 住 , 与 FastVectorHighlighter 类 似 ,，PostingsHighlighter 需 要 
的 offset 会 导致 索引 大 小 的 增加 ， 但 这 种 增加 比 使 用 词 向 量 时 更 小 。 此 外 ， 索 引 
offset 比 索引 词 向 量 更 快 ， 且 PostingsHighlighter 的 查询 性 能 更 好 。 





如 果 一 切 顺利 , 我 们 将 有 一 个 新 的 索引 和 映射 。 映射 定义 了 两 个 字段 : 一 个 名 叫 contents， 
男 一 个 叫 contents.ps。 在 这 个 例子 中 ,使 用 ingex_options 属 性 打开 了 偏 移 。 这 意味 着 


Elasticsearch 将 对 contents contents .ps 字段 使 用 信息 高 亮 器 。 


为 了 看 其 中 的 差别 , 我们 索引 一 个 文档 ,该 文档 包含 维基 百 字段 使 用 标准 的 高 亮 类 型 ， 而 对 
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科 中 描述 伯明翰 历史 的 片段 。 为 此 ， 执 行 以 下 命令 : 


curl -XPUT localhost:9200/hl test/doc/l1 -d '{ 

"contents" : "Birmingham''s early history is that of a remote and 
marginal area. The main centers of population, power and wealth 
in the pre-industrial English Midlands lay in the fertile and 
accessible river valleys of the Trent, the Severn and the Avon. 
The area of modern Birmingham lay in between, on the upland 
Birmingham Plateau and within the densely wooded and sparsely 
populated Forest of Arden." 

} 


最 后 一 步 是 使 用 两 个 高 亮 类 型 来 发 送 查 询 请 求 。 为 此 ， 可 以 使 用 如 下 命令 来 发 送 单个 请 求 : 


curl 'localhost:9200/hl1 test/_search?pretty' -d '{ 
"query": { 
"term": { 
"contents": "modern" 








} 
} [4 
"highlight": { 
"fields": { 
"contents": {}, 
"contents.ps" : {} 





如 果 一 切 顺 利 ， 可 以 在 响应 中 找到 如 下 片段 : 


"highlight" : { 

"contents" : [ " valleys of the Trent, the Severn and the 
Avon. The area of <em>modern</em> Birmingham lay in 
between, on the upland" ], 

"contents.ps" : [ "The area of <em>modern</em> Birmingham lay 
in between, on the upland Birmingham Plateau and within the 
densely wooded and sparsely populated Forest of Arden." ] 

} 


可 以 看 到 , 两 种 高 亮 实现 都 找到 了 所 需要 的 单词 , 不 同 的 是 , 信息 高 亮 器 返回 的 片段 更 聪明 ， 
它 检测 了 句子 的 边界 。 


用 下 面 的 命令 再 来 试 一 个 查询 : 


curl 'localhost:9200/hl1 test/_ search?pretty' -d '{ 
"query": { 
"match phrase": { 
"contents": "centers of" 
} 
} Ls 
"highlight": { 
"fields": { 
"contents": {}, 








0| 
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"contents.ps": {} 
} 
} 
条 
搜索 一 个 特定 的 短语 centers of。 正 如 你 预料 的 那样 ， 这 两 种 高 亮 实现 的 结果 不 一 样 。 对 
标准 高 亮 实现 ， 将 在 响应 中 找到 如 下 的 短语 : 


"Birmingham's early history is that of a remote and marginal area. 
The main <em>centers</em> <em>of</em> population" 


可 以 清楚 地 看 到 ， 标 准 高 亮 实 现 分 割 了 给 定 短 语 ， 高 亮 单 独 的 词 条 。 不 是 所 有 的 centers 
和 of 词 条 都 被 高 亮 ， 只 有 来 自 这 个 短语 的 才 被 高 亮 。 


另 一 方面 ， 信 息 高 亮 需 返回 如 下 高 亮片 段 : 

















"Birmingham's early history is that <em>of</em> a remote and marginal 
area.", 

"The main <em>centers</em> <em>of</em> population, power and wealth 
in the pre-industrial English Midlands lay in the fertile and 
accessible river valleys <em>of</em> the Trent, the Severn and the 
Avon.", 

"The area <em>of</em> modern Birmingham lay in between, on the upland 
Birmingham Plateau and within the densely wooded and sparsely 
populated Forest <em>of</em> Arden." 


这 是 个 显著 的 差异 : 信息 高 亮 器 高 亮 了 所 有 跟 查 询 词 条 匹配 的 词 条 ， 而 不 仅 是 组 成 短语 的 那 


些 词 条 。 




















3.7 ”验证 查询 


有 时 ， 应 用 程序 发 送 到 Elasticsearch 的 查询 是 自动 从 多 个 条 件 生 成 的 ， 甚 至 更 糟 ， 它 们 是 通 
过 某 种 向 导 和 生成， 最终 用 户 可 以 在 其 中 创建 复杂 的 查询 。 问 题 是 ,查询 的 正确 与 否 ， 有 时 并 不 容 
易 分 辨 。 为 了 解决 这 个 问题 ，Elasticsearch 公 开 了 验证 API。 



























































使 用 验证 API 


验证 API 非 常 简单 ， 我 们 把 它 发 送 到 _validqate_duery 端 点 ， 而 不 是 _search 端 点 就 行 了 。 
来 看 看 下 面 的 查询 : 


‘ 
"query" : { 
i 
"mst" 3 { 
"term" : { 
"titler 5 verine" 
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} 
}, 


"should" : { 
"range : { 
"year" : { 
rereom" 2 1300, 
"to" ££ .2000 
} 
} 
> 
"must_not" : { 
"term" : { 
"otitle. : "nothing" 











本 书 中 已 经 用 过 这 个 查询 ,我们 知道 该 查询 一 切 正常 。 但 要 通过 下 面 的 命令 来 验证 一 下 (已 
经 把 查询 保存 到 query.json 文 件 中 ): 


Curl -XGET 'localhost:9200/library/_validate/query?pretty' -d 
@query .json 


查询 看 上 去 是 对 的 ， 但 来 看 看 验证 API 怎 么 说 。Elasticsearch 返 回 的 响应 如 下 所 示 : 








{ 
"valid" : false, 
"_shards" : { 
"total" : 1, 
"successful" : 1, 
"failed" : 0 
} 
} 


看 下 valid 属 性 ， 它 被 设 成 了 false。 有 些 地 方 出 错 了 。 再 执行 一 次 验证 查询 ， 这 次 加 入 
explain 参 数 ， 如 下 所 示 : 


curl -XGET 'localhost:9200/library/_validate/query?pretty&explain' -- 
data-binary @query.json 


这 次 ，Elasticsearch 返 回 的 结果 更 加 详细 ， 如 下 所 示 : 


{ 

"valid" : false, 

"_shards" : { 
"total™" : 1, 
"successful" : 1, 
"failed" : 0 

Fs 

"explanations" : [ { 
"index" : "library", 
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"valid" : false, 

"error" : "org.elasticsearch.index.query.QueryParsingException: 
[library] Failed to parse; 
org.elasticsearch.common.jackson.core.JsonParseException: 
Illegal unquoted character ((CTRL-CHAR, code 10)): has to be 
escaped using backslash to be included in name\n at [Source: 
[B@6456919f; line: 10, column: 18]" 

}] 
} 


现在 一 切 都 清楚 了 ， 在 我 们 的 例子 中 ，range 属 性 的 引号 少 了 一 个 。 





你 可 能 想 知道 为 什么 我 们 在 curl 查 询 中 使 用 --data-binary 参 数 。 此 参数 
可 在 发 送 查 询 到 Elasticsearch 时 保留 换行 符 , 这 意味 着 行列 数 都 将 是 完好 的 ， 
这 样 更 容易 发 现 错误 。 在 其 他 情况 下 ，-d 参 数 更 为 方便 ， 因 为 它 更 短 。 EE 


验证 API 还 可 以 检测 其 他 错误 ， 例如， 格式 不 正确 的 数字 或 其 他 映射 相关 的 问题 。 可 惜 ， 由 
于 我 们 的 应 用 程 因为 缺乏 错误 信息 中 的 结构 ， 不 是 很 容易 发 现 问题 。 








3.8 ”数据 排序 


我 们 现在 知道 了 如 何 构建 查询 和 过 滤 结 果 , 也 知道 搜索 类 型 以 及 为 什么 它们 重要 。 可 以 把 这 
些 查 询 发 送 到 Elasticsearch ， 并 分 析 返 回 的 数据 分 析 。 现 在 ， 这 个 数据 的 组 织 顺 序 是 由 得 分 决定 
的 。 在 大 多 数 情况 下 ， 这 正 是 我 们 想 要 的 。 搜 索 操作 首先 应 该 给 我 们 最 相关 的 文档 。 然 而 ， 如 果 
想 让 查询 更 像 一 个 数据 库 ， 或 想 设 置 一 个 更 复杂 的 算法 对 数据 排序 ， 该 怎么 做 呢 ? 来 看 看 
Elasticsearch 的 排序 功能 可 以 做 什么 。 

















3.8.1 默认 排序 


看 下 面 的 查询 ， 它 返回 至 少 含有 一 个 指定 单词 的 所 有 书 : 
{ 


"query" : { 
"terms" : { 
"title™ % |[ "erime”, “front";, "punishment™" 1]. 
"minimum match" : 1 


} 
} 
} 


在 底层 ，Elasticsearch 把 它 当 作 如 下 查询 : 
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"title" : [ "crime", "front", "punishment" ]， 
"minimum match" : 1 
} 
$s 


"sort" : { " score" : "desc" } 





注意 上 述 查 询 中 高 亮 的 部 分 ， 这 是 Elasticsearch 的 默认 排序 。 更 详细 来 说 ， 这 个 片段 如 下 所 示 : 





前 一 节 定 义 了 在 结果 列表 中 的 文档 应 该 如 何 排序 。 在 这 个 例子 中 ，Elasticsearch 在 结果 列表 
的 顶部 显示 最 高 分 的 文档 。 最 简单 的 修改 是 旋 续 sort 部 分 ， 以 达到 反 向 排序 ， 如 下 所 示 : 











"Sorte 
{ "_score" : "asc" } 


] 


3.8.2 ”选择 用 于 排序 的 字段 
默认 排序 很 无 聊 ， 不 是 吗 ? 所 以 , 我们 让 它 根 据 文档 中 的 一 个 字段 排序 ， 如 下 所 示 : 


TSOrE 3 
{ "titler S ase} 

















可 惜 ， 这 并 不 会 如 预期 一 样 工作 。 虽 然 Elasticsearch 对 文档 做 了 排序 ， 但 文档 顺序 有 些 奇怪 。 
仔细 查看 响应 ，Elasticsearch 对 每 个 文档 返回 了 排序 信息 ， 例 如 ， wr 22 这 本 书 ， 返回 文档 
类 似 于 以 下 代码 : 


{ 
" index": "library", 
"_ type": "book", 
"id":s "2"; 
"_score": null, 
"_source": { 
"title": "Catch-22", 
"author": "Joseph Heller", 
"year": 1961, 
"characters": [ 
"John Yossarian", 
"Captain Aardvark", 
"Chaplain Tappman", 
"Colonel Cathcart", 
"Doctor Daneeka" 
] Ls 
"tags": [ 
"novel" 
] [4 
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"copies": 6 
"available": false, 
"section": 1 

}, 

a0OrE"s [ 
22" 

] 

} 


如 果 你 比较 一 下 title 字 段 和 返回 的 排序 信息 , 一 切 应 该 都 清楚 了 。Elasticsearch 在 分 析 过 程 
中 把 字段 拆 分 为 儿 个 标记 。 因 为 排序 是 使 用 单个 标记 ，Elasticsearch 在 产生 的 标记 中 选择 了 一 个 。 
这 种 做 法 是 最 好 的 , 因为 它 可 以 通过 对 这 些 标记 按照 字母 顺序 排序 并 选择 了 第 一 个 。 这 就 是 为 什 
么 在 排序 的 值 中 ,我 们 只 能 找到 一 个 单词 而 不 是 title 字 段 的 全 部 内 容 。 在 空余 时 间 ， 你 可 以 看 
看 Elasticsearch 对 字符 字段 排序 时 的 表现 。 


一 般 来 说 ， 对 一 个 未 经 分 析 的 字段 排序 是 一 个 好 主意 。 我 们 可 以 对 具有 多 个 值 的 字段 排序 ， 
但 在 大 多 数 情况 下 ,没有 多 大 意义 ,因此 使 用 有 限 。 例 如 ,我 们 使 用 两 个 不 同 的 字段 ,一 个 作为 
排序 ， 另 一 个 作为 搜索 ， 修 改 title 字 段 。 更 改过 的 title 字 段 定义 可 能 类 似 于 下 面 的 代码 : 
































TEL 人 
"tyBer: string™; 
"fields": { 
TSOort™s { "typer "String”; "index": "mot _ analyzed™ } 


} 
} 


在 映射 中 修改 title 字 段 后 ， 本 章 开 头 已 经 展示 过 ， 可 以 尝试 对 title.sort 字 段 排序 ， 看 
看 它 是 否 工 作 。 为 此 ， 需 要 发 送 以 下 查询 : 
{ 





"query" : { 
"matceh all* s 《中 
]5 
se sh 
(EL SGOEET 二 Ben } 


] 
} 


现在 ， 它 正常 了 。 正 如 你 所 看 到 的 ， 我 们 用 新 的 字段 title.sort。 已 经 将 其 设置 为 未 经 分 
析 ， 因 此 ， 在 索引 中 它 是 个 单 值 字段 。 


在 Elasticsearch 响 应 中 ， 每 个 文档 包含 用 于 排序 的 值 的 有 关 信 息 ， 如 下 所 示 : 


"_index" : "library", 

"_type" : "book", 

"jian : "1", 

"_score" : null, " source" : { "title": "All Quiet on the 
Western Front","otitle": "Im Westen nichts Neues", 
"author": "Erich Maria Remarque","year": 

1929, "characters": ["Paul Biumer", "Albert Kropp", 
"Haie Westhus", "Fredrich Miiller", "Stanislaus 
Katczinsky", "Tjaden"],"tags": ["novel"],"copies": 1, 
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"available": true, "section" : 3}, 
"sort" : [ "All Quiet on the Western Front" ] 


请 注意 ，sort 在 请 求 和 响应 中 ， 都 是 一 个 数组 。 这 表明 我 们 可 以 使 用 几 种 不 同 的 排序 。 对 
于 前 一 个 字段 值 相同 的 文档 ，Elasticsearch 将 使 用 下 一 个 数组 里 的 元 素来 确定 文档 的 顺序 。 所 以 ， 
如 果 文 档 的 title 字 段 相 同 ， 将 使 用 我 们 指定 的 下 一 个 字段 排序 。 











3.8.3 ”指定 缺少 字段 的 行为 

当 有 些 与 查询 匹配 的 文档 没有 我 们 要 排序 的 字段 时 , 会 怎么 样 ? 默认 情况 下 , 没有 给 定 字段 
的 文档 ， 如 果 是 升序 排 ， 则 会 出 现在 第 一 个 ; 如 果 是 降序 排 ， 则 出 现在 最 后 一 个 。 然 而 ， 有 时 这 
不 是 我 们 想 要 的 。 

使 用 数字 字段 排序 时 ， 可 以 更 改 Elasticsearch 对 缺少 字段 的 文档 的 默认 行为 。 例 如 以 下 查询 

{ 











"query" : { 
"mateoh all* ¢ {3} 
六 
vsort" 3 | 
{ "section" : { "order" : "asc", "missing" : " last" } } 


] 
} 


注意 ,查询 中 sort 节 点 的 扩展 部 分 添加 了 missing 人 参数 。 通 过 把 missing 参 数 设 为 _L1ast， 
Elasticsearch 将 把 缺乏 给 定 字段 的 文档 放 在 结果 列表 的 底部 。 设 置 为 _first， 则 会 把 缺乏 给 定 字 
段 的 文档 放 在 结果 列表 的 顶部 。 值 得 一 提 的 是 ， 除 了 _last 和 _first 值 ，Elasticsearch 人 允许 我 们 
使 用 任意 数字 。 在 这 种 情况 下 ， 一 个 没有 给 定 字段 的 文档 将 被 视 为 该 文档 具有 给 定 的 值 。 






































3.8.4 动态 条 件 

上 一 节 提 到 ，Elasticsearch 人 允许 使 用 具有 多 个 值 的 字段 排序 。 可 以 使 用 脚本 来 控制 排序 时 进 
行 的 比较 ， 通 过 告诉 Elasticsearch 如 何 计算 应 用 于 排序 的 值 来 达到 目的 。 假 设 要 通过 tags 字 段 中 
的 第 一 个 值 来 排序 。 看 看 下 面 的 示例 查询 : 

{ 














"query" : { 
i 天 上 于 起 了 
} 
TaoOEEY FE 
TT SuriBt™ a 4 
"script" : "doc['tags'] .values.length > 0 ? 
doc['tags'] .values[0] : '\ul9999'", 
"Eype & Materindg"., 
"order" : "asc" 


} 
} 
} 
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在 上 面 的 示例 中 ， 我 们 把 每 一 个 不 存在 的 值 蔡 换 成 一 个 Unicode 字 符 ， 该 字符 在 列表 中 应 该 
处 于 足够 低 的 位 置 。 此 代码 的 主要 想法 是 检查 tags 数 组 中 是 否 包 含 至 少 一 个 元 素 。 如 果 是 ， 那 
么 返回 数组 中 的 第 一 个 值 。 如 果 数 组 为 空 ,返回 Unicode 字 符 ， 该 字符 应 该 放 在 结果 列表 的 底部 。 
除了 script 参 数 , 还 需要 指定 order 参 数 ( 在 我 们 的 例子 中 是 升序 ), 以 及 用 于 比较 的 type 参 数 
( 我们 的 脚本 返回 的 是 string )。 











3.8.5 ”排序 规则 和 国家 特有 字符 


如 果 想 使 用 英语 以 外 的 语言 , 可 能 要 面 对 字符 顺序 不 正确 的 问题 。 这 是 因为 许多 语言 有 不 同 
的 字母 顺序 定义 。Elasticsearch 支 持 多 种 语言 ， 但 需要 额外 的 插件 来 支持 适当 的 排序 规则 。 它 很 
容易 安装 和 配置 ，8.7 节 将 进一步 讨论 。 





3.9 ”查询 重 写 


基本 上 ,任何 涉及 多 词 条 的 查询 , 比如 前 级 查询 和 通配符 查询 , 都 使 用 查询 重 写 。 Elasticsearch 
这 样 做 是 基于 性 能 方面 的 原因 。 重 写 过 程 把 原始 的 、 昂 贵 的 查询 修改 成 一 组 Lucene 认 为 不 太 昂贵 
的 查询 。 

















3.9.1 重 写 过程 示 例 


要 说 明 重 写 过 程 在 内 部 是 如 何 进 行 的 , 最 好 的 方式 是 看 一 个 例子 , 看 看 哪些 词 条 代替 了 原始 
的 查询 词 条 。 假 设 在 索引 中 有 以 下 数据 : 


Curl -XPOST 'localhost:9200/library/book/1' -d '{"title": "Solr 4 
Cookbook"}' 

curl -XPOST 'localhost:9200/library/book/2' -d '{"title": "Solr 3.1 
Cookbook"}' 

Curl -XPOST 'localhost:9200/library/book/3' -d '{"title": "Mastering 
Elasticsearch"}' 


我 们 需要 找到 以 字母 s 开 头 的 所 有 文档 。 就 这 么 简单 ， 对 该 1ibrary 索 引 执行 以 下 查询 : 
Curl -XGET 'localhost:9200/library/_search?pretty' -d '{ 
"query" 2 { 
"prefix" : { 
nm 七 二 Len 2 ms" 
"rewrite" : "constant_ score boolean" 
} 
} 
}" 


这 里 ,使 用 一 个 简单 的 前 缀 查询。 我 们 说 过 要 找到 所 有 在 tit1le 字 上段 中 含有 字母 的 文档 。 
我 们 还 使 用 了 rewrite 属 性 来 指定 查询 重 写 方法 , 但 先 跳 过 它 , 因为 会 在 本 节 的 后 半 部 分 讨论 此 
参数 的 可 能 值 。 作 为 对 上 述 查 询 的 响应 ， 得 到 以 下 输出 : 
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"took" : 22, 
"timed out" : false, 
"_shards" : { 
"total" : 5, 
"successful" : 5, 
"failed" : 0 
Fs 
"hits" : { 
"total" : 2, 
"max score" : 1.0, 
nt 
"_ index" : "library", 
" type" : "book", 
ee 人 
"_score" : 1.0, " source" : {"title": "Solr 3.1 Cookbook"} 
}, { 
" index" : "library", 
" type" : "book", 
vid s Ls 
"_score" : 1.0, "_ source" : {"title": "Solr 4 Cookbook"} 
}] 
} 
} 


可 以 看 到 , 在 响应 中 , 我 们 有 两 个 文档 , 它们 的 标题 字段 内 容 以 期 望 的 字符 开头 。 看 看 Lucene 
级 别 的 查询 ， 我 们 注意 到 ， 前 绥 查 询 被 重 写成 类 似 于 下 面 这 样 的 查询 : 

ConstantScore(title:solr) 

这 是 因为 solr 是 唯一 以 字母 s 开 头 的 词 条 。 这 就 是 查询 重 写 的 一 切 : 找到 相关 的 词 条 ， 把 查 
询 重 写 为 性 能 更 好 的 查询 ， 而 不 是 执行 昂贵 的 查询 。 



























































3.9.2 ”查询 重 写 的 属性 


我 们 已 经 说 过 ， 可 以 在 任何 多 项 词 条 查询 ( 比如 Elasticsearch 的 前 级 查询 和 通配符 查询 ) 中 
使 用 rewrite 参 数 来 控制 查询 如 何 被 改写 。 把 rewrite 参 数 添 加 到 负责 实际 查询 的 JSON 对 象 中 ， 
如 下 所 示 : 


{ 
"query" : { 
"rEEIR™ 
vither S Ty, 
"rewrite" : "constant_score boolean" 
} 
} 
} 


现在 ,来 看 看 此 参数 的 值 有 哪些 选项 。 
口 scoring_boolean: 这 种 重 写 方法 把 生成 的 每 个 词 条 翻译 成 布尔 查询 中 的 一 个 should 子 
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句 。 此 查询 重 写 方法 可 能 是 CPU 密集 型 ( 因为 它 计 算 并 存储 每 个 词 条 的 得 分 )， 如 果 查 询 
许多 词 条 ， 可 能 超过 布尔 查询 极限 ， 也 就 是 1024。 此 外 ， 此 查询 会 存储 计算 所 得 的 分 数 。 

口 constant_score_boolean: 这 种 重 写 方法 类 似 于 上 面 描 述 的 scoring_boolean 重 写 
方法 ， 但 是 对 CPU 要 求 较 低 ， 因 为 不 需要 计算 得 分 。 相 反 ， 每 个 词 条 都 得 到 一 个 与 查询 
加 权 相 等 的 得 分 ， 默 认 是 1， 可 以 通过 加 权 属 性 进行 设置 。 与 scoring_boolean 重 写 方 
法 类 似 ， 该 方法 也 可 能 达到 布尔 查询 的 最 高 限制 。 

口 constant_score_filter: 就 像 Apache Lucene 的 Javadocs 声 明 的 那样 , 这 个 重 写 方法 按 
顺序 访问 每 个 词 条 ， 标 记 该 词 条 的 所 有 文档 ， 并 创建 一 个 私有 过 滤器 来 重 写 查询 。 匹 配 
的 文档 都 被 赋予 一 个 与 查询 加 权 相 等 的 常量 得 分 。 当 匹配 词 条 或 文档 的 数量 很 大 时 ， 此 
方法 比 scoring_boolean 和 constant_score boolean 快 。 

口 top_terms_N: 这 种 重 写 方法 把 生成 的 每 个 词 条 翻译 成 布尔 查询 中 的 一 个 should 子 句 ， 
并 保持 查询 计算 所 得 的 分 数 。 然 而 ， 与 scoring_boolean 重 写 方法 不 同 ， 它 只 会 保留 N 
个 最 高 得 分 的 词 条 ， 以 免 达 到 布尔 查询 的 最 大 限制 。 

口 top_terms_boost_N: 这 是 一 种 类 似 top_terms_N 的 重 写 方法 。 然而 ， 与 top_terms_N 


重 写 方法 不 同 ， 分数 只 由 加 权 计 算 而 来 ， 而 非 查询 。 















































» 当 重 写 属 性 设置 为 constant_score auto 或 根本 没有 设置 时 ， 根据 查询 以 及 
总 
构造 方式 的 不 同 ， 将 选择 使 用 constant_score_filter 或 constant_score_ 


boolean, 


结束 本 章 查询 重 写 部 分 之 前 ， 我 们 应 该 问 自己 最 后 一 个 问题 ,“ 什 么 时 候 使 用 哪 种 类 型 的 重 
写 ”? 这 个 问题 的 答案 在 很 大 程度 上 取决 于 我 们 的 用 例 , 但 是 总 结 来 说 ， 如 果 能 忍受 低 精 度 〈 但 
性 能 更 好 )， 使 用 op N 重 写 方法 。 如 果 需 要 高 精度 〈 但 性 能 较 低 )， 选 择 布尔 方法 。 











3.10 小结 


本 章 介 绍 了 Elasticsearch 查 询 如 何 工 作 ， 以 及 如 何 选 择 要 返回 的 数据 ; 讨论 了 查询 重 写 如 何 
工作 ， 有 哪些 搜索 类 型 ， 什 么 是 搜索 偏好 ; 展示 了 Elasticsearch 中 可 用 的 基本 查询 ， 并 使 用 过 滤 
何 来 过 滤 结 果 。 此 外 , 还 讨论 了 高 亮 显 示 功 能 , 让 它 来 高 亮 文档 中 匹配 的 部 分 。 我 们 验证 了 查询 。 
了 解 了 复合 查询 ， 将 多 个 查询 组 合 在 一 起 ， 最 后 ， 看 到 了 如 何 根据 需求 配置 排序 。 

下 一 章 重 点 介绍 索引 ， 但 还 会 涉及 其 他 内 容 。 我 们 会 学 到 如 何 索 引 树 状 结构 ; 看 到 如 何在 


Elasticsearch 中 存储 JSON 对 象 , 来 索引 非 扁平 的 数据 , 以 及 如 何 修 改 一 个 已 经 创建 的 索引 的 结构 。 
下 一 章 还 将 阐述 如 何 使 用 藤 套 文档 和 主 从 功能 来 处 理 文档 之 间 的 关系 。 
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扩展 索引 结构 








上 一 章 介绍 了 不 少 有 关 查 询 Elasticsearch 的 知识 ， 展 示 了 如 何在 Elasticsearch 中 选择 返回 字 
段 ， 并 说 明了 查询 的 工作 方式 。 除 此 之 外 , 我们 还 了 解 到 可 用 的 基本 查询 以 及 过 滤 数 据 的 方法 ， 
如 何 高 亮 文档 中 的 匹配 文字 ， 如 何 验 证 查询 、 复 合 查询 ， 以 及 如 何 对 数据 排序 。 这 一 章 的 主要 





内 容 如 下 : 


口 索引 树 型 结构 数据 ; 

口 索引 非 扁 平 数 据 ; 

口 在 可 能 情况 下 修改 索引 结构 ; 
口 使 用 伐 套 文档 索引 关系 型 数据 ; 
口 使 用 主 从 功能 索引 关系 型 数据 。 

















4.1 索引 树 形 结构 


树 型 结构 随处 可 见 。 如 果 开 发 一 个 商店 应 用 程序 ， 可 能 会 需要 类 别 。 看 看 文件 系统 ,文件 和 
目录 以 树 状 结构 排列 。 本 书 也 呈 树 型 : 章节 包含 各 种 主题 ， 而 主题 又 划分 为 副 主题 。 想 象 得 出 ， 

















Elasticsearch 也 能 够 索引 树 状 结构 。 让 我 们 看 看 如 何 通过 path_analvzer 浏 览 这 种 数据 类? 











4.1.1 数据 结构 
首先 ， 通 过 以 下 代码 创建 一 个 简单 的 索引 结构 : 


Curl -XPUT 'localhost:9200/path' -Q '{ 
"settings" : { 
"index" : { 
"analysis" : { 
"analyzer" : { 
"path analyzer" : { "tokenizer" : "path hierarchy" } 
} 
} 
} 
} 
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"mappings" : { 
"Category" : { 
"properties" : { 
"Category" : { 
"type™ » etring"; 
"fields"” : { 
"name" : { "type" : "string", 
"index" : "not_analyzed" }, 
"pathiy 3 { “type™ 3 "stEring™, 
"analyzer" : "path analyzer", 
"store" : true } 
} 


可 以 看 到 ， 我 们 创建 了 一 个 类 型 : category。 我 们 将 使 用 它 在 树 型 结构 中 存储 文档 位 置 的 
信息 。 想 法 很 简单 ， 可 以 用 与 在 硬盘 里 显示 文件 和 目录 完全 相同 的 方式 ， 以 路 径 的 形式 显示 文档 
位 置 。 例 如 ， 在 一 家 汽车 店 中 可 以 有 如 下 路 径 : /cars/passengersport、/cars/passengercamper， 或 
者 /cars/delivery_truck/。 需 要 用 三 种 方式 对 这 个 路 径 建 立 索 引 。 我 们 将 使 用 未 经 额外 处 理 的 name 
字段 ， 以 及 一 个 使 用 定义 的 path_analyzer 处 理 的 path 字 段 ， 也 保留 原始 值 以 方便 搜索 。 














4.1.2 分 析 
现在 ， 让 我 们 看 看 Elasticsearch 在 分 析 的 过 程 中 如 何 处 理 类 别 路 径 。 为 此 ， 运 用 5.7 节 中 描述 
的 分 析 API， 执 行 以 下 命令 : 


Curl -XGET 'localhost:9200/path/ analyze?field=category.path&pretty' -d 
'/cars/passenger/sport' 


Elasticsearch 返 回 的 结果 如 下 所 示 : 











{ 

"tokens" : [ { 
"token™" : "/cars", 
"start offset" : 0, 
"end offset" : 5, 
"type" : "word", 
"position" : 1 

}, { 
"token" : "/cars/passenger", 
"start offset" : 0, 
"end offset" : 15, 
"type™" : "word", 
"position" : 1 

}, { 
"token" : "/cars/passenger/sport", 
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"start offset" : 0, 
"end offset" : 21, 
mm type wm 2 "word wm 天 
"position" : 1 
} 
可 以 看 到 ，Elasticsearch 把 类 别 路 径 /cars/passenger/sport 处 理 并 分 解 成 三 个 标记 。 归 功 于 此 ， 
我 们 很 容易 通过 词 条 过 滤器 找到 每 个 属于 指定 类 别 或 子 类 别 的 文档 。 举 例如 下 : 











下 
"EE 及 丽 
"term" : { "category.path" : "/cars" } 
} 
} 


注意 ， 我 们 还 在 索引 中 建立 了 category.name 字 段 的 原始 值 ， 便 于 直接 找到 特定 路 径 的 文 
档 ， 略 过 层次 结构 更 次 的 文档 。 





4.2 索引 非 遍 平 数据 


并 非 所 有 数据 都 是 扁平 数据 ， 就 像 到 目前 为 止 本 书 使 用 的 所 有 数据 。 如 果 我 们 构建 使 用 
Elasticsearch 的 系统 ， 应 创建 有 利于 Elasticsearch 的 结构 。 结 构 不 总 是 扁平 的 ， 因 为 并 非 所 有 用 例 
都 允许 这 样 操作 。 让 我 们 看 看 如 何 使 用 完全 结构 化 的 JSON 对 象 创建 映射 。 





























4.2.1 数据 
假定 有 如 下 数据 ( 存储 于 structured_data.json 文 件 中 ): 


{ 


"book" : { 
"autnor™ 
"name" : { 
"firstName" : "Fyodor", 
"lastName" : "Dostoevsky" 
} 
} 
"igSbn" SS “L123456789", 
"englishTitle" : "Crime and Punishment", 
"year" : 1886, 
"characters" : [ 
{ 
"name" : "Raskolnikov" 
} 
{ 
"name" : "Sofia" 
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"Copies" : 0 
} 
} 


可 以 看 到 ,在 上 面 的 代码 中 ,数据 并 非 是 扁平 的 ; 它 包含 了 数组 和 赂 套 对 象 。 如 果 要 运用 日 
前 为 止 学 到 的 知识 创建 映射 ， 我 们 不 得 不 将 数据 变 为 扁平 。 然 而 ，Elasticsearch 人 允许 文档 中 存在 
一 定 程 度 的 结构 ， 可 以 创建 能 够 处 理 上 述 示例 的 映射 。 























4.2.2 ”对象 


上 述 示 例 显 示 了 结构 化 的 JSON 文 档 。 可 以 看 到 , 示例 文档 的 根 对 象 是 pook, 具备 一 些 额外 、 
简单 的 属性 ， 比 如 englisnTitle。 它 们 将 以 正常 字段 的 形式 索引 。 此 外 ， 还 有 characters 数 
组 类 型 ， 这 一 点 将 在 接 下 来 的 段落 中 讨论 。 现 在 ， 让 我 们 关注 author 对 象 ， 可 以 看 到 ， 它 还 租 
套 了 另 一 个 有 两 个 属性 fijrstName 和 1lastName 的 对 象 name。 














4.2.3 数组 


我 们 已 经 使 用 过 数组 类 型 的 数据 ,但 未 详细 讨论 。 默 认 情 况 下 ,在 Lucene 中 的 所 有 字段 都 是 
多 值 的 ， 因 此 在 Elasticsearch 中 也 是 一 样 ， 这 意味 着 它们 可 以 存储 多 个 值 。 为 了 索引 这 些 字段 ， 
我 们 使 用 JSON 数 组 类 型 ， 舱 套 在 中 括号 [中 。 上 述 示例 里 , 我 们 对 book 中 的 cnaracters 使 用 了 
数组 类 型 。 


4.2.4 映射 


为 索引 数组 ， 只 需要 在 数组 名 称 中 指定 字段 的 属性 。 因 此 ,在 我 们 的 例子 中 , 可 添加 以 下 映 
射 来 索引 characters 的 数据 : 








"characters" : { 
"properties" : { 
"name" : {"type" : "string", "store" : "yes"} 


} 
} 


没什么 特殊 的 ， 仅 仅 在 数组 名 称 〈 在 例子 中 为 characters ) 中 能 套 了 properties 节 点 ， 
并 定义 字段 。 由 于 前 面 的 映射 ， 我 们 在 索引 中 获得 多 值 字 段 characters .name。 


同样 ， 对 于 对 象 author ， 使 用 数据 中 同样 的 名 称 ， 除 了 properties 部 分 ， 我 们 还 添加 了 
type 属 性 并 设置 值 为 object， 告 知 Elasticsearch 应 期 待 一 个 对 象 类 型 。 在 对 象 author 中 髓 套 了 
对 象 name， 因 此 author 字 上 段 的 映射 如 下 所 示 : 





"author" : { 
"type" : "object", 
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"properties" : { 
"name" : { 
"type" : "object" 
"properties" : { 
"firstName" : {"type" : "string", "index" 
"JastName" : {"type" : "string", "index" 


} 


"analyzed"}, 
"analyzed"} 


firstName 和 lastName 字 上 段 在 索引 中 体现 为 author .name .firstName 和 author .name . 


lastName, 











其 余 字 段 为 简单 的 核心 类 型 ，2.2 节 已 经 讨论 过 ， 这 里 不 











最 终 映 射 


再 歼 述 。 


所 以 ， 我 们 的 映射 文件 structured_mapping.json 的 最 终 映 射 如 下 所 示 : 




















{ 
"book" : 4 
"properties" : { 
"autnorY SB 
"type" : "object" 
"properties" : { 
"name" : { 
"type" : "object" 
"properties" : {、 
"firstName" : {"type™ : "string", “store"s: “yes"}; 
"lastName" : {"type" : "string", "store": "yes"} 
} 
} 
} 
| 
“ESD 2 {"tyBe™ + "string"; “store™: vyes™}., 
"englishTitle" : {"type" : "string", "store": "yes"}, 
"year™. : ("tyBe" : "integqer"; "stores yes")};, 
"Characters" : { 
"properties" : { 
"name" : {"type" : "string", "store": "yes"} 
} 
} 
"Copies" : {"type" : "integer", "store": "yes"} 
} 
} 
} 
可 以 看 到 ， 所 有 字段 中 store 的 属性 值 均 设 置 为 yes。 这 只 是 为 了 向 你 展示 所 有 字段 都 可 以 





正常 索引 。 
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4.2.5 向 Elasticsearch 发 送 映 射 

现在 , 映射 已 经 完成 , 我 们 可 测试 确认 其 是 否 有 效 。 这 次 将 使 用 一 种 稍微 不 同 的 技术 来 创建 
索引 和 上 映射。 首先， 使 用 以 下 命令 行 创建 1ibrary 索 引 : 

curl -XPUT 'localhost:9200/library' 

接着 ,使 用 以 下 命令 行将 映射 发 送 至 book 类 型 : 


Curl -XPUT 'localhost:9200/library/book/ mapping' -d @structured mapping. 
json 


现在 ， 可 使 用 以 下 命令 行 索引 我 们 的 示例 数据 : 


Curl -XPOST 'localhost:9200/library/book/l1' -d @structured data.json 











4.2.6 动态 还 是 非 动 态 


我 们 知道 ，Elasticsearch 是 无 模式 的 ， 这 意味 着 不 必 创 建 前 面 的 映射 就 可 索引 数据 。 
Elasticsearch 的 动态 行为 默认 是 打开 的 ， 但 可 能 想 在 索引 的 某 些 部 分 把 它 关 掉 。 为 此 ， 可 为 指定 
字段 增加 属性 aynamic, 将 值 设 置 为 false, 该 属性 应 该 设置 在 与 非 动态 对 象 的 type 属 性 相同 的 
级 别 上 。 举 例 来 说 ， 如 果 我 们 希望 对 象 author 和 name 为 非 动 态 ， 应 该 将 映射 文件 的 相关 部 分 修 
改 成 类 似 下 面 这 样 : 























autnor yw 
"typer 3 objectr. 
"dynamic" : false, 
"properties" : { 
"name" : { 
"type" ; "object", 
"dynamic" : false, 
"properties" : { 
"firstName" : {"type" : "string", "index" : "analyzed"}, 
"lJastName" : {"type" : "string", "index" : "analyzed"} 


} 
于 
} 


应 记 住 ， 为 此 类 对 象 增加 新 字段 时 ， 应 更 新 映射 。 


你 也 可 以 在 elasticsearch.yml 配 置 文件 中 添加 index.mapper.dynamic 属 
> 性 ， 将 值 设置 为 Ealse， 关 掉 动 态 映 射 功能 。 


图 灵 社 区 会 员 打 顺 顺 (lvshun@live.cn) 专 享 尊重 版 权 





128 第 4 章 扩展 索引 结构 


4.3 ”使 用 和 藤 套 对 象 


某 些 情况 下 山 套 对 象 可 以 很 方便 。 基 本 上 ， 过 使 用 般 套 对 象 ，Elasticsearch 人 允许 我 们 连接 
一 个 主 文档 和 多 个 附属 文档 。 主 文档 及 风 套 文档 一 0 段 上 (实际 在 同 
一 块 上 ), 确保 为 该 数据 结构 获取 最 佳 性 能 。 更 改 文档 也 是 一 样 的 ,除非 使 用 更 新 API, 你 需要 同 
时 索引 父 文档 和 其 他 所 有 内 套 文档 。 


攻 果 想 阅读 更 多 Lucene 中 误 套 对 象 的 工作 方式 ， 可 参考 迈克 , 麦 坎 德 利 斯 














( Mike McCandless ) 的 博客 ， 链 接 如 下 : http://blog.mikemccandless.com/2012/01/ 


Searching-relational-content-with.html。 

















现在 , 我 们 来 看 示例 。 假设 有 一 个 服装 店 , 需要 存储 每 件 T 恤 的 尺寸 和 颜色 ,那么 ,标准 的 、 
非 骨 套 映射 将 类 似 于 以 下 的 代码 ( 存储 于 clothjson 中 ): 
{ 


这 下 加 已 二 六 证 
"properties" : { 
"name" : {"type" : "string"}, 
"size" : {"type" : "string", "index" : "not_analyzed"}, 
"olor™. ; {"type™ : “string", “index" * "not_analyzed"} 


} 
} 
} 


假设 仅 有 一 件 XXL 的 红色 T 恤 和 一 件 XL 的 黑色 T 恤 ， 示 例文 档 将 类 似 于 以 下 代码 : 























"name" : "Test shirt", 
"size" : [ "XXLD", "XL" 让 3 
"SoLor™ -| "red; "black™ 








mi 





然而 ， 这 个 数据 结构 有 个 问题 : 假使 客户 要 在 商店 搜索 XXL 黑 色 T 恤 ， 会 产生 什么 结果 ? 
行 以 下 查询 来 检查 ( 假设 我 们 已 使 用 映射 创建 索引 并 在 其 中 建立 了 示例 文档 ): 
Curl -XGET ‘'localhost:9200/shop/cloth/_ search?pretty=true' -d '{ 
"query" : { 
"bool" : { 
"must" : [ 

















"term" : { "size" : "XxL" } 


"term" : { "color" : "black" } 
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我 们 不 应 该 得 到 结果 ， 对 吧 ? 但 事实 上 ，Elasticsearch 返 回 了 如 下 文档 : 


{ 
{in) 
"hits" : { 
"total" : 1, 
"max_ score" : 0.4339554, 
"hits" : [ { 
"_index" : "shop", 
"_type" : "cloth", 
ide 3 TL 
"_score" : 0.4339554, 
"_source" : { "name" : "Test shirt", 
"Sizen : [ "XXL", "XL" ], 
"color" : [ "red", "black" ]} 
}] 
} 
} 





这 是 因为 , 经 过 比 对 文档 , 在 size 字 段 和 color 字 段 上 有 我 们 需要 的 值 。 当 然 , 这 不 是 我 们 
想 要 的 。 因 此 , 修改 映射 , 使 用 柑 套 对 象 来 分 离 color 和 size。 最 终 的 映射 看 起 来 如 下 所 示 (我 





们 把 这 些 映射 存 到 cloth_nested.json 文 件 中 ): 4 
{ 
"Ot ;这 
"properties" : { 
"name" : {"type" : "string", "index" : "analyzed"}, 
"yariation™,. 并 
"type" : "nested", 
"properties" : { 
"size" : {"type" : "string", "index" : "not_ analyzed"}, 
"Color" : {"type" : "string", "index" : "not_analyzed"} 
) 
} 
) 
} 





可 以 看 到 ， 我 们 在 cloth 类 型 中 引入 了 新 对 象 variation， 它 是 能 套 的 (type 属性 设置 为 
nested )， 表 示 想 为 舱 套 文档 建立 索引 。 现在 修改 文档 , 添加 variation 对 象 , 其 中 有 两 个 属性 : 
size 和 color。 示 例 产 品 将 如 下 所 示 : 


{ 





"name" : "Test shirt", 

"variation" : [ 
{ "SiZer 3 XXL "COLOF™ “Fed }, 
{, "Taisen TAL MCOLOE™ 3 MHLIack™ 3¥ 


] 
} 


组 织 文 档 结构 , 以 便 每 个 尺寸 及 其 匹配 颜色 成 为 一 个 独立 文档 ,然而 , 如 果 执 行 之 前 的 查询 ， 
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将 无 任何 文档 返回 。 这 是 因为 ， 对 于 嵌 套 文件 ， 需 要 使 用 专门 的 查询 。 因 此 ， 查 询 如 下 ( 当然 ， 
我 们 已 经 再 次 创建 了 索引 和 类 型 ): 























Curl -XGET 'localhost:9200/shop/cloth/ search?pretty=true' -d '{ 
"query" : { 
"nested" : { 
"path" : "variation", 
"query" : { 
"bool" : { 
"must" : [ 

{ "term" : { "variation.size"™ : "XxXL" } }, 
{ "term" : { "variation.color" : "black" } } 


现在 ,上 述 查 询 将 无 法 返回 索引 中 的 文档 ,因为 无 法 找到 尺寸 XXL 且 颜色 为 黑色 的 鹏 套 文档 。 
这 里 简单 讨论 一 下 我 们 的 查询 ， 可 以 看 到 ， 我 们 使 用 nested 查 询 来 查询 幅 套 文档 。path 属 性 指 
定 了 购 套 对 象 的 名 称 ( 可 以 使 用 多 个 名 称 ), nested 类 型 包括 了 一 个 标准 查询 部 分 。 应 注意 的 是 ， 
在 嵌 套 对 象 中 为 字段 名 称 指定 完整 的 路 径 ， 在 多 级 从 套 中 很 方便 操作 (这 也 是 可 能 的 )。 

















如 果 你 想 在 误 套 对 象 的 基础 上 过 滤 数 据 , 可 使 用 上 说 套 过 滤器 , 它 具 备 与 说 套 
~ 一 查询 相同 的 功能 。 更 多 相关 信息 ， 请 参阅 3.5 节 。 


评分 与 仍 套 查询 


在 查询 过 程 中 人 处理 般 套 文档 时 , 有 一 个 附加 属性 。 除 path 属 性 外 , 还 有 个 score_mode 属 性 ， 
它 允 许 我 们 定义 如 何 从 骨 套 查询 中 计算 得 分 。 在 Elasticsearch 中 可 将 此 属性 设置 为 如 下 值 。 


口 avg: 这 是 默认 值 。 使 用 这 个 值 时 ，Elasticsearch 可 在 指定 的 藤 套 查询 中 计算 出 平均 值 。 
该 平均 值 包 含 在 主 查 询 的 得 分 中 。 

口 total: score_mode 属 性 设置 为 此 值 时 ，Elasticsearch 可 对 每 个 姐 套 查询 的 得 分 求 和 。 该 
值 包 含 在 主 查 询 的 得 分 中 。 

口 max: score_mode 属 性 设置 为 此 值 时 ，Elasticsearch 可 得 出 般 套 查询 的 最 高 得 分 。 该 值 包 
含 在 主 查询 的 得 分 中 。 

口 none: score_mode 属 性 设置 为 此 值 时 ，Elasticsearch 不 计算 舱 套 查询 的 得 分 。 
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4.4 使 用 父子 关系 


上 一 节 已 讨论 了 索引 髋 套 文 档 及 其 父 文档 的 能 力 。 然 而, 即使 垦 套 文档 在 索引 中 是 作为 独立 
文档 检索 的 ， 除 非 使 用 更 新 API， 否 则 还 是 无 法 更 改 单个 腻 套 文档 。 而 在 Elasticsearch 中 ， 我 们 可 
利用 父子 关系 操作 。 请 看 以 下 内 容 。 























4.4.1 索引 结构 和 数据 索引 


在 此 ,参考 之 前 讨论 蝶 套 文档 时 使 用 的 示例 : 假想 的 服装 店 。 然 而 我 们 希望 的 是 : 在 每 次 变 
更 后 ,无需 索引 整个 文档 即 可 更 新 尺寸 和 颜色 。 


1. 父 文档 映射 
在 父 文档 中 ，name 是 我 们 需要 的 唯一 字段 。 因 此 ， 在 shop 索 引 中 创建 cloth 类 型 ， 执 行 如 


下 命令 : 


Curl] -XPOST 'localhost:9200/shop' 
Curl -XPUT 'localhost:9200/shop/cloth/ mapping' -d '{ 
"cloth" : { 
"properties" : { 
"name" : {"type" : "string"} 
} 
} 
和 


2. 子 文档 映射 


为 创建 子 文档 映射 ， 要 在 _parent 属 性 中 添加 父 类 型 的 名 称 ， 在 我 们 的 示例 中 为 cloth。 
此 ， 创 建 类 型 variation 的 命令 行将 如 下 所 示 : 





























Curl -XPUT 'localhost:9200/shop/variation/ mapping' -d '{ 
"variation" : { 
" parent" : { "type" : "cloth" }, 
"properties" : { 
"size" : {"type" : "string", "index" : "not analyzed"}, 
"color" : {"type" : "string", "index" : "not analyzed"} 
} 
} 
Se 


我 们 无 需 指定 连接 父子 文档 的 字段 ， 因 为 默认 情况 下 Elasticsearch 会 使 用 唯一 标识 符 。 如 前 
面相 关 章 节 所 述 ， 唯 一 标识 符 以 默认 的 形式 存在 于 索引 中 。 


3. 父 文档 
现在 ， 我 们 来 索引 父 文 档 。 操 作 很 简单 ， 只 要 执行 索引 命令 ， 示 例如 下 : 
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Curl -XPOST '‘'localhost:9200/shop/cloth/1' -d '{ 
"name" : "Test shirt" 


5 
上 述 命令 中 ， 我 们 指定 的 文档 标识 符 为 1。 
4. 子 文档 


为 索引 子 文档 ， 需 要 使 用 parent 参 数 提供 父 文档 的 相关 信息 ， 将 该 参数 设置 为 父 文档 的 标 
识 符 。 所 以 ， 为 索引 父 文档 中 的 两 个 子 文档 ， 执 行 下 面 的 命令 : 





curl -XPOST 'localhost:9200/shop/variation/1000?parent=1' -d ({ 
"color" : "red", 
"size" : "XXL" 


$7" 

同样 ， 执 行 如 下 命令 行 索引 第 二 个 子 文档 : 

curl -XPOST 'localhost:9200/shop/variation/1001?parent=1' -d '{ 
"oolor™" s "black"; 


"rsize" : "XL" 
} 


这 样 , 我 们 索引 了 两 个 附加 文档 , 它们 是 新 类 型 , 但 是 我 们 已 为 其 指定 标识 符 为 1 的 父 文档 。 





4.4.2 ”查询 

我 们 已 经 索引 了 数据 ,现在 需要 恰当 的 查询 来 匹配 拥有 子 文档 数据 的 文档 。 当 然 , 也 可 针对 
子 文档 来 执行 查询 并 检测 其 父 文档 是 否 存在 。 然 而 要 注意 的 是 ,针对 父 文档 执行 查询 时 , 子 文档 
将 无 法 返回 ， 反 之 亦 然 。 

1. 查询 子 文档 中 的 数据 

如 果 要 寻找 XXL 号 的 红色 衣服 ， 可 以 运行 如 下 命令 行 : 


Curl -XGET 'localhost:9200/shop/_ search?pretty' -d '{ 
"query" : { 
"has child" : { 
"type" : "variation", 
"query" : { 
"bool" : { 
"must" : [ 
{ "term" : { "size"™ : "XxXL" } }, 
{ "term" : { "color" : "red" } } 
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查询 很 简单 。 类 型 has_chilq 告 知 Elasticsearch 我 们 想 在 子 文档 中 搜索 。 为 了 指定 感 兴趣 的 
子 类 型 ,指定 type 属 性 为 子 类 型 的 名 称 。 然 后 用 一 个 标准 的 bool 查 询 (已 经 讨论 过 ), 查询 的 结 
果 仅 包含 父 文档 ， 示 例如 下 : 


{ 
(sn) 
"mits" s { 
"total" : 1, 
"max_ score" : 1.0, 
"hits" : [ { 
"_index" : "shop", 
"_type" : "cloth", 
nd 3 TL 
"_score" : 1.0, " source" : { "name" : "Test shirt" } 
}1] 
} 
} 








@ top children 查 询 


除 has_chilgd 查 询 之 外 ，Elasticsearch 还 公开 了 top_children 查 询 ， 它 查询 子 文档 但 返回 
父 文档 。 此 查询 可 针对 特定 数量 的 子 文 档 ， 示 例如 下 : 


{ 





"query" : { 

"top_children" : { 
"type" : "variation", 
"query" : { 

"term" : { "size" : "XXL" } 

js 
"SCOre" : "max", 
vastor,. :05 
"incremental_factor" : 2 


} 
} 
} 


上 述 查 询 首 先 在 100 个 子 文档 中 运行 ( factor 乘 以 size 的 默认 参数 10 )。 如 果 找 到 10 个 父 文 
档 ( 因为 默认 size 的 参数 值 为 10 )， 这 些 文档 将 返回 并 结束 查询 。 然 而 ， 如 果 返 回 的 父 文档 数量 
较 少 ， 且 尚 有 子 文档 未 经 查询 ， 那 么 另外 20 个 子 文档 将 被 查询 ( incremental_factor 人 参数 乘 
以 size )， 直 到 找到 规定 数量 的 父 文档 或 者 所 有 子 文档 查询 结束 为 止 。 

top_children 查 询 通 过 使 用 score 参 数 指定 得 分 的 计算 方式 , 可 能 的 参数 值 包括 : max( 所 
有 子 查 询 得 分 的 最 大 值 )、sum (所 有 子 查 询 得 分 的 总 和 ) 或 avg( 所 有 子 查 询 得 分 的 平均 值 )。 


2. 查询 父 文档 中 的 数据 


如 果 想 要 返回 与 父 文档 中 指定 数据 匹配 的 子 文档 ， 可 使 用 类 似 于 has_chilg 的 查询 : 
has_parent。 然 而 ,我 们 用 父 文档 类 型 的 值 指定 parent_type 属 性 ， 而 不 是 type 属 性 。 这 人 么 
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>» 


这 个 查询 将 返回 索引 的 子 文档 ， 而 不 是 父 文档 : 





curl -XGET 
"query" : { 
"has parent" : { 


"parent type" : "cloth", 
"query" : { 
"term" : { "name" : "test" } 
} 
} 
} 
} Li 
Elasticsearch 的 响应 如 下 所 示 : 
{ 
(rare 
nt 
"total" : 2, 
"max score" : 1.0, 
"its™ s [ { 
"_ index" : "shop", 
"_ type" : "variation", 
"_ id" : "1000", 
"Score" : 1.0, " source" : {"color™ : 
}, { 
" index" : "shop", 
" type" : "variation", 
wid™ s “L001™"; 
"_score™" : 1.0, " source" : {"color™ : 
}] 
} 
} 
4.4.3 ”父子 关系 和 过 滤 





'localhost:9200/shop/_search?pretty' 


-di't{ 


"red", "size" : "XXL"} 


rpblack", "size" : "XL"} 


如 果 想 要 将 父子 查询 作为 过 滤器 使 用 ， 可 以 用 过 滤器 has_chi1d 和 has_parent， 它 们 具备 
了 与 has_childa 和 has_parent 查 询 相 同 的 功能 。 实际 上 , Elasticsearch 将 那些 过 滤 顺 封装 为 常数 








得 分 查询 ， 使 其 可 作为 查询 使 用 。 





4.4.4 性 能 考虑 




















使 用 Elasticsearch 父 子 的 功能 时 ， 必 须 注意 它 的 性 能 影响 。 需 要 记 住 的 第 一 件 事 是 父子 文档 
需要 存储 在 相同 的 分 片 中 ,查询 才能 够 工作 。 如 果 单 一 父 文档 有 大 量 的 子 文档 ,可 能 导致 分 片上 
的 文档 数量 不 平均 。 因 此 ， 其 中 的 一 个 节点 的 性 能 会 降低 ， 造 成 整个 查询 速度 变 慢 。 另 外 , 请 记 











住 ， 比 起 查询 无 任何 关联 的 文档 ， 父 子 查 询 的 速 

















座 术 蛋 
之 议 慢 。 
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第 二 个 非常 重要 的 事情 是 ， 执 行 has_childq 等 查询 时 ，Elasticsearch 需 要 预 加 载 并 缓存 文档 
标识 符 。 这 些 标识 符 将 存储 在 内 存 中 ， 必 须 确保 Elasticsearch 有 足够 的 内 存 。 和 否则 ， 你 将 得 到 
OutOfMemory 异 常 ， 市 点 或 整个 集群 将 无 法 运作 。 


最 后 , 我 们 提 到 过 ,首次 查询 将 花 一 定时 间 预 加 载 和 缓存 文档 标识 符 。 为 了 提升 首次 查询 父 
子 关系 文档 的 性 能 ， 可 以 使 用 预 热 API。 关 于 如 何在 Elasticsearch 中 添加 预 热 查询 ， 请 参考 8.5 节 。 





4.5 使 用 更 新 API 修改 索引 结构 


前 面 的 章节 讨论 过 如 何 创建 索引 映射 和 索引 数据 。 如 果 你 已 经 创建 了 映射 和 索引 数据 , 想 要 
修改 索引 的 结构 ,应 该 怎么 办 ?在 某 种 程度 上 这 是 可 行 的 。 例 如 ,默认 情况 下 索引 一 个 带 新 字段 
的 文档 ，Elasticsearch 会 将 该 字段 增加 到 索引 结构 中 。 现 在 看 看 如 何 手 动 修改 索引 结构 。 














4.5.1 映射 
假设 我 们 的 users 索 引 有 以 下 映射 ， 存储 于 userjson 文 件 中 : 


{ 
"user" : { 
"properties" : { 
"name" : {"type" : "string"} 
} 
} 
} 


可 以 看 到 , 它 很 简单 ,只 有 一 个 属性 保存 用 户 名 。 现在 , 让 我 们 创建 一 个 名 为 users 的 索引 ， 
并 使 用 上 面 的 映射 创建 自己 的 类 型 。 为 此 ， 运 行 以 下 命令 : 


Curl -XPOST 'localhost:9200/users' 
Curl -XPUT 'localhost:9200/users/user/ mapping' -d @user.json 


如 果 一 切 正常 ,我 们 的 索引 和 类 型 便 创建 好 了 。 现 在 ， 添 加 一 个 新 字段 到 映射 中 去 。 





4.5.2 ”添加 一 个 新 字段 


为 了 说 明 如 何 为 映射 添加 新 字段 ， 我 们 假设 要 为 每 个 存储 的 用 户 添 加 一 个 电话 号 码 。 为 此 ， 
需要 将 HTTP PUT 命令 发 送 到 带 有 合适 主体 的 /inadaex_name/type_name/_mappingREST 端 
点 ， 该 主体 中 包含 我 们 的 新 字段 。 例 如 ， 为 添加 phone 字 段 ， 执 行 以 下 命令 : 


Curl -XPUT 'http://localhost:9200/users/user/ mapping' -d '{ 




















"user" : { 
"properties" : { 
"phone" : {"type" : "string", 
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store" 2 "yes LL 
"index" : "not analyzed"} 
} 
} 
} 


同样 ， 如 果 一 切 正常 ， 新 字段 便 添 加 到 我 们 的 索引 结构 中 去 了 。 为 了 确保 一 切 正常 ， 可 以 运 


行 HTTP GET 请 求 到 _mapping 端 点 ; Elasticsearch 将 返回 适当 的 映射 。 在 索引 users 中 获得 user 
类 型 映射 的 示例 命令 如 下 所 示 : 





Curl -XGET 'localhost:9200/users/user/ mapping?pretty' 


在 现 有 类 型 中 添加 新 字段 后 ， 需 要 再 次 对 所 有 文档 进行 索引 ， 因 为 
Elasticsearch 不 会 自动 更 新 。 这 很 关键 ， 可 以 使 用 初始 数据 源 或 从 _source 
字段 中 获得 初始 数据 并 再 次 索引 。 


4.5.3 ”修改 字段 


现在 ， 我 们 的 索引 结构 包含 两 个 字段 : name 和 phone。 我 们 索引 了 一 些 数据 ， 但 之 后 又 决定 
搜索 bhone 字 段 ， 并 希望 更 改 index 属 性 ， 从 not_analyzed 改 为 analyzed， 为 此 ， 执行 以 下 命令 : 





curl -XPUT 'http://localhost:9200/users/user/ mapping' -d '{ 
"user" : { 
"properties" : { 
"phone" : {"type" : "string", 
"store" : "yes", 
"index" : "analyzed"} 
} 
} 
$F 


执行 上 面 的 命令 行 后 ，Elasticsearch 返 回 以 下 输出 : 


{"error":"MergeMappingException[Merge failed with failures {[mapper 
[phone] has different index values, mapper [phone] has different 'norms. 
enabled' values, mapper [phone] has different tokenize values, mapper 
[phone] has different index analyzer]}]","status":400} 


这 是 因为 无 法 将 not_analyzeq 字 段 更 改 为 analyzed。 不 仅 如 此 ， 在 大 部 分 情况 下 字段 映 
射 是 无 法 更 新 的 。 这 是 好 事 ， 因 为 如 果 我 们 可 以 更 改 这 样 的 设置 ， 会 让 Elasticsearch 和 Lucene 混 
乱 。 假 设 已 经 有 很 多 文档 带 有 设置 为 not_analyzed 的 phone 字 段 ， 将 这 些 设置 更 改 为 
analyzed，Elasticsearch 将 无 法 更 改 已 索引 的 文档 , 但 已 经 分 析 的 查询 将 以 不 同 的 逻辑 处 理 ， 那 
么 我 们 就 无 法 正确 查找 数据 。 


我 们 在 此 将 提 及 一 些 操作 ， 举 例 说 明 哪些 是 禁止 的 ， 哪 些 是 允许 的 。 如 下 修改 是 安全 的 : 
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口 增加 新 的 类 型 定义 ; 

口 增加 新 的 字段 ; 

口 增加 新 的 分 析 噩 。 

而 以 下 修改 是 不 允许 或 是 无 法 实现 的 : 

口 更 改 字段 类 型 ( 如 将 文本 改 为 数字 ); 

口 更 改 “ 存 储 到 ”字段 为 不 存储 ， 反 之 亦 然 ; 


口 更 改 索引 属性 的 值 ; 
口 更 改 已 索引 文档 的 分 析 器 。 














注意 一 点 ， 上 述 允 许 和 不 允许 的 操作 没有 涵盖 更 新 API 的 全 部 可 能 性 ， 你 必须 实际 操作 以 验 
证 更 新 是 否 可 行 。 








如 果 你 想 忽 略 冲 突 并 设置 新 映射 ， 可 设置 1gnore_conflicts 的 参数 值 为 
true，Elasticsearch 将 会 重 写 映射 。 带 有 额外 参数 的 命令 行 如 下 : 


Curl -XPUT 'http://localhost:9200/users/user/ _ mapping? 
ignore conflicts=true' -d ' 


4.6 小结 


这 一 章 讲 述 了 如 何 使 用 Elasticsearch 索 引 树 型 结构 ， 索 引 非 扁平 数据 ， 以 及 修改 已 创建 的 索 
引 结 构 。 最 后 ， 介 绍 了 如 何 使 用 山 套 文档 及 Elasticsearch 中 的 父子 功能 来 处 理 关系 型 数据 。 


下 一 章 的 重点 是 更 高 效 地 搜索 ， 我 们 将 看 到 Apache Lucene 得 分 的 工作 方式 及 其 重要 性 ; 学 
习 使 用 Elasticsearch 的 函数 得 分 查询 ， 用 孔 数 以 及 提供 的 脚本 功能 来 调整 不 同文 档 的 重要 性 ,使 
用 不 同 的 语言 来 搜索 , 并 讨论 索引 时 加 权 什 么 时 候 有 意义 。 下 一 章 将 使 用 同义词 匹配 具有 相同 含 
义 的 单词 ， 介 绍 检测 文档 被 查询 到 的 原因 。 最 后 ， 使 用 加 权 来 影响 查询 ， 并 解释 Elasticsearch 的 
得 分 计算 。 
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更 好 的 搜索 








上 一 章 介绍 了 Elasticsearch 如 何 对 非 扁 平 数据 建立 索引 ， 如 何 索引 树 状 结构 和 面向 对 象 结 构 
的 数据 ， 以 及 如 何 修 改 已 创建 索引 的 结构 。 最 后 , 还 学 习 了 如 何 使 用 髓 套 文档 和 父子 功能 来 处 理 
文档 之 间 的 关系 。 本 章 主 要 内 容 如 下 : 


口 Apache Lucene 评 分 ; 

口 使 用 Elasticsearch 的 脚本 功能 ; 

口 对 不 同 语言 的 数据 索引 和 搜索 ; 

口 使 用 不 同 查询 来 影响 返回 文档 的 得 分 ; 
口 使 用 索引 时 加 权 ; 

口 具有 相同 意思 的 词 ; 

口 检查 为 什么 特定 文档 被 返回 ; 

口 检查 得 分 计算 细节 。 











5.1 ， Apache Lucene 评分 简介 


当 谈 到 查询 及 其 相关 性 , 我 们 不 能 忽略 得 分 以 及 它 从 哪里 来 。 但 得 分 是 什么 ?得 分 是 描述 文 
档 与 查询 相关 度 的 一 个 参数 。 本 节 将 讨论 Apache Lucene 的 默认 评分 机 制 ，TF/IDF 算 法 ， 看 看 它 
如 何 影 响 返回 的 文档 。 














TF/IDF 算 法 不 是 Elasticsearch 公 开 的 唯一 可 用 的 算法 。 有 关 可 用 模型 的 更 多 
~ 信息 ， 请 参阅 2.2.3 节 ， 或 我 们 的 书 Mastering ElasticSearch，Packt 出 版 。 


5.1.1 当 文 档 被 匹配 时 

Lucene 返 回 文档 时 ,意味 着 文档 与 我 们 发 送 的 查询 匹配 ， 并且 对 该 文档 已 给 出 一 个 分 数 。 得 
分 越 高 ， 从 搜索 引擎 的 角度 来 看 文档 越 相 关 。 然 而 ,两 个 不 同 的 查询 将 对 同一 文档 计算 出 不 同 的 
分 数 。 正 因为 如 此 , 在 查询 之 间 比 较 分 数 通 常 没什么 意义 。 我 们 回 到 评分 这 个 话题 。 计 算 文档 的 
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评分 属性 时 ， 考 虑 以 下 因素 。 


口 文档 加 权 : 对 文档 建立 索引 时 ， 对 文档 的 加 权 值 。 

口 字段 加 权 : 查询 和 索引 时 ， 对 字段 的 加 权 值 。 

口 协调 : 基于 文档 词 条 数 的 协调 因子 。 对 包含 更 多 查询 词 条 的 文档 ， 它 提供 更 大 的 值 。 

口 逆 文 档 频 率 : 基于 词 条 的 因子 ， 它 告诉 评分 公式 ， 给 定 词 条 出 现 的 频率 有 多 低 。 逆 文档 
口 长 度 规范 : 基于 字段 的 规范 化 因子 ， 它 基于 给 定 字段 包含 的 词 条 数目 。 字 段 越 长 ， 该 因 
子 给 的 加 权 值 越 小 。 这 基本 上 意味 着 更 短 的 文档 更 受 分 数 的 青睐 。 

口 词 频 : 基于 词 条 的 因子 ,描述 给 定 词 条 在 文档 中 出 现 的 次 数 ， 词 频 越 高 ， 文 档 的 得 分 越 高 。 
口 查询 规范 : 基于 查询 的 规范 化 因子 ， 由 每 个 查询 词 条 比重 的 平方 之 和 计算 而 成 。 查 询 规 
范 用 于 查询 之 间 的 得 分 比较 ,但 这 并 不 一 定 很 容易 ， 有 时 其 至 做 不 到 。 




















5.1.2 ”默认 评分 公式 
TF/IDF 算 法 的 实用 计算 公式 如 下 : 


score(g,d) = coord(g,d)* queryNorm(q)* > (tf (tind)*idf (t) * boost(t)* norm(t,d)) 


ting 

















为 了 调整 查询 相关 性 ,你 不 需要 记 住 这 个 等 式 的 细节 , 但 至 少 要 知道 它 是 如 何 工作 的 。 我 们 
可 以 看 到 ,文档 的 评分 因子 是 查询 g 和 文档 Ga 的 一 个 函数 .还 有 两 个 不 直接 依赖 于 查询 词 条 的 因子 ， 
coord 和 aueryNorm。 公 式 中 这 两 个 元 素 跟 查询 中 的 每 个 词 计算 而 得 的 总 和 相 乘 。 另 一 方面 ,该 
总 和 由 给 定 词 的 词 频 、 逆 文档 频率 、 词 条 加 权 和 规范 相 乘 而 来 ， 其 中 的 规范 就 是 我 们 前 面 讨 论 过 
的 长 度 规范 。 

















. 注意 前 面 的 公式 是 实用 性 的 , 你 可 以 在 Lucene Javadocs 中 查看 更 多 概念 公式 
的 信息 , 网 址 是 : http://lucene.apache.org/core/4 7 0/core/org/apache/lucene/search/ 
similarities/TFIDFSimilarity.html。 











上 述 规则 的 好 处 是 , 你 不 需要 记 住 全 部 内 容 。 应 该 知道 的 是 影响 文档 评分 的 因素 。 下 面 是 一 
些 派生 自 上 述 等 式 的 规则 : 


口 匹配 的 词 条 越 罕 见 ， 文 档 的 得 分 越 高 ，; 

口 文档 的 字段 越 小 ， 文 档 的 得 分 越 高 ; 

口 字段 的 加 权 越 高 ， 文 档 的 得 分 越 高 ; 

口 我 们 可 以 看 到 ， 文 档 匹 配 的 查询 词 条 数目 越 高 、 字 段 越 少 〈 意味 着 索引 的 词 条 越 少 )， 
Lucene 给 文档 的 分 数 越 高 。 同 时 ， 军 见 词 条 比 常见 词 条 更 受 评分 的 青睐 。 
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5.1.3 ”相关 性 的 意义 


在 大 多 数 情 况 下 , 我们 希望 得 到 最 匹配 的 文档 , 但 最 相关 的 不 一 定 是 最 匹配 的 。 一 些 用 例 定 
义 了 非常 严格 的 规则 ， 规 定 了 某 些 文档 应 该 在 结果 列表 中 排 位 靠 前 。 例 如 ， 文 档 除 了 被 TF/IDF 
相似 度 模型 完美 匹配 外 ， 有 客户 付 钱 让 他 们 的 文档 出 现在 结果 中 更 靠 前 的 位 置 。 基 于 客户 计划 ， 
我 们 想 给 这 样 的 文档 更 大 的 重要 性 ,把 付费 最 高 的 用 户 的 文档 放 到 搜索 结果 的 最 顶部 。 当 然 , 这 
就 不 属于 TF/IDF 相 关 性 了 。 

这 是 一 个 非常 简单 的 例子 ， 但 Elasticsearch 查 询 可 以 非常 复杂 。5.4 节 将 讨论 。 

在 进行 搜索 相关 性 方面 的 工作 时 , 你 应 该 永远 记 住 , 这 不 是 一 次 性 的 过 程 。 随 着 时 间 的 推移 ， 
你 的 数据 将 改变 , 查询 也 需要 相应 调整 。 在 大 多 数 情况 下 , 优化 查询 相关 性 是 持续 性 的 工作 ,要 
根据 业务 规则 、 需 求 以 及 用 户 行为 方式 等 调整 。 有 一 点 非常 重要 : 记 住 这 不 是 设置 之 后 就 可 以 抛 
诸 脑 后 的 一 次 性 过 程 。 






























































5.2 ”Elasticsearch 的 脚本 功能 


Elasticsearch 有 几 个 可 以 使 用 脚本 的 功能 。 你 已 经 看 过 一 些 例 子 ， 如 更 新 文件 、 过 滤 和 搜索 。 
这 似乎 有 点 高 级 ， 我 们 还 是 来 看 看 Elasticsearch 提 供 的 可 能 性 ， 因 为 在 一 些 用例 中 ， 脚 本 是 非常 
有 价值 的 。Elasticsearch 使 用 脚本 执行 的 任何 请 求 中 ， 我 们 会 注意 到 以 下 相似 的 属性 。 


D script: 此 属性 包含 实际 的 脚本 代码 。 

D lang: 这 个 属性 定义 了 提供 脚本 语言 信息 的 字段 。 如 果 省 略 ，Elasticsearch 假 定 为 mvel。 

D params: 此 对 象 包含 参数 及 其 值 。 每 个 定义 的 参数 可 以 通过 指定 参数 名 称 在 脚本 中 使 用 。 
通过 使 用 参数 ， 我 们 可 以 编写 更 干净 的 代码 。 由 于 可 以 缓存 ， 使 用 参数 的 脚本 比 戏 入 党 
数 的 代码 执行 得 更 快 。 





































































































5.2.1 脚本 执行 过 程 中 可 用 的 对 象 

在 不 同 的 操作 过 程 中 ，Elasticsearch 允 许 在 脚本 中 使 用 不 同 的 对 象 。 为 开发 符合 我 们 用 例 的 
脚本 ， 应 该 熟悉 这 些 对 象 。 

比如 ， 在 搜索 过 程 中 ， 下 列 对 象 是 可 用 的 。 
口 _gdoc (也 可 以 用 doc ): 这 是 个 org.elasticsearch.search.1lookup.DocLookup 对 象 
的 实例 。 通 过 它 可 以 访问 当前 找到 的 文档 ， 附 带 计 算 的 得 分 和 字段 的 值 。 


口 _source: 这 是 个 org .elasticsearch. search.1LIookup . SourceLookup 对 象 的 实例 


通过 它 可 以 访问 当前 文档 的 source， 以 及 定义 在 source 中 的 值 。 
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口 _fields: 这 是 个 org.elasticsearch.search. lookup.FieldsLookup 对 象 的 实例 ， 
通过 它 可 以 访问 文档 的 所 有 字段 。 

另 一 方面 , 在 文档 更 新 过 程 中 ，Elasticsearch 只 通过 _source 属 性 公开 了 ctx 对 象 ， 通过 它 可 
以 访问 当前 文档 。 

我 们 之 前 看 到 过 , 在 文档 字段 和 字段 值 的 上 下 文中 提 到 了 几 种 方法 。 现 在 让 我 们 通过 下 面 的 
例子 ,看 看 如 何 获取 title 字 段 的 值 。 在 括号 中 , 你 可 以 看 到 Elasticsearch 从 1ibrary 索 引 中 为 我 
们 的 一 个 示例 文档 返回 的 值 : 











口 _qoc.title.value(crime) 
口 _source.title (Crime and Punishment ) 


口 _fields.title.value (null) 


有 点 疑惑 ， 不 是 吗 ? 在 索引 期 间 ， 一 个 字段 值 作为 _source 文 档 的 一 部 分 被 发 送 到 Elasti- 
csearch。Elasticsearch 可 以 存储 此 信息 ， 而 且 默 认 的 就 是 存储 。 此 外 ， 文 档 被 解析 ， 每 个 被 标记 
成 storeq 的 字段 可 能 都 存储 在 索引 中 ( 也 就 是 说 ，store 属 性 设置 为 true; 和 否则， 默认 情况 下 ， 
字段 不 存储 )。 最 后 ， 字 上段 值 可 以 配置 成 indexed。 这 意味 着 分 析 该 字段 值 ， 划 分 为 标记 ， 并 放 
置 在 索引 中 。 综 上 所 述 ， 一 个 字段 可 能 以 如 下 方式 存储 在 索引 中 : 


口 作为 _source 文 档 的 一 部 分 ; 
口 一 个 存储 并 未 经 解析 的 值 ; 
口 一 个 解析 成 若干 标记 的 值 。 


在 脚本 中 ,， 除 了 更 新 操作 , 我们 可 以 访问 所 有 这 些 形 式 。 你 可 能 疑惑 应 该 使 用 哪个 版 本 。 好 
吧 ， 如 果 我 们 要 访问 处 理 过 的 形式 ， 答 案 很 简单 ，_doc。 那 _source 和 _fields 呢 ? 在 大 多 数 
情况 下 ，_source 是 一 个 不 错 的 选择 ， 比 起 从 索引 中 读 取 原始 字段 值 来 说 ， 它 通常 很 快 并 且 磁 盘 
操作 较 少 。 









































5.2.2 MVEL 


Elasticsearch 可 以 在 脚本 中 使 用 几 种 语言 。 如 果 没 有 明确 说 明 ， 默 认 使 用 MVEL ( MVFLEX 
Expression Language，MVFLEX 表 达 式 语言 )。MVEL 快 速 、 易 于 使 用 和 瞬 入 ,是 在 很 多 开源 项 目 
中 使 用 的 一 个 简单 但 功能 强大 的 表达 式 语 言 。 它 允许 我 们 使 用 Java 对 象 ， 自 动 映射 属性 到 
getter/setter 方 法 、 简 单 类 型 转换 、 集 合 映 射 、 数 组 和 关联 数组 映射 等 。 更 多 关于 MVEL 的 信息 ， 
请 参阅 http://mvel.codehaus.org/Language+Guide+for+2.0。 




















5.2.3 ”使 用 其 他 语言 
脚本 中 使 用 MVEL 是 一 个 简单 而 充分 的 解决 方案 , 但 你 也 可 以 选择 JavaScript、Python 或 者 
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Groovy。 使 用 其 他 语言 之 前 ， 必 须 安装 相应 的 插件 ， 可 以 在 8.7 节 中 阅读 更 多 关于 插件 的 内 容 。 
现在 ， 我 们 只 需 从 Elasticsearch 目 录 中 执行 以 下 命令 : 


bin/plugin -install elasticsearch/elasticsearch-lang- 
javascript/2.0.0.RC1 


上 述 命 令 将 安装 一 个 插件 ， 使 我 们 能 够 使 用 JavaScript。 我 们 在 请 求 中 的 唯一 修改 是 添加 所 
使 用 脚本 语言 的 额外 信息 ， 当 然 ， 还 有 修改 脚本 本 身 ， 让 它 在 新 的 语言 中 是 正确 的 。 看 看 下 面 
的 示例 : 

















"query" : { 
"mateh all $A } 
3 
OEEL 玫 
"Cri SB 
"script" : "doc.tags.values.length > 0 ? doc.tags.values[0] 
NUL999977 05 
"Lang" : "javascript", 
"tye $ votring.; 
"order" : "asc" 


上 
} 
. 
可 以 看 到 ， 我 们 使 用 JavaScript 脚 本 ， 而 不 是 默认 MVEL。1lang 参 数 通 知 Elasticsearch 我 们 正 
在 使 用 的 语言 。 

















5.2.4 ”使 用 自 定 义 脚本 库 


脚本 通常 都 很 小 ， 可 以 很 方便 地 放 到 请 求 中 。 但 有 时 随 着 应 用 程序 的 增长 ,你 想 给 开发 者 一 
些 可 以 在 他 们 的 模块 中 重复 使 用 的 东西 ,如 果 是 大 型 和 复杂 的 脚本 ,一 般 最 好 将 它们 放 在 文件 中 ， 
并 仅 在 API 请 求 中 引用 。 要 做 的 第 一 件 事 情 是 把 脚本 用 适当 的 名 称 放 在 适当 的 地 方 。 我 们 的 小 脚 
本 应 该 放 在 Elasticsearch 的 config/scripts 目 录 中 。 把 我 们 的 示例 脚本 文件 命名 为 text_sortjs。 请 注意 ， 
文件 的 扩展 名 应 该 指示 用 于 脚本 的 语言 。 在 本 例 中 ， 使 用 JavaScript。 本 示例 文件 的 内 容 很 简单 ， 
如 下 所 示 : 

















doc.tags.values.length > 0 ? doc.tags.values[0] :' Nu19999 
一 个 使 用 上 述 脚本 的 查询 如 下 所 示 : 
{ 


"query" : { 
"match all" : { } 








}, 
OECY 训 二 
和 
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"Seriptr » "text Sort™,; 
Mevper © Totrinogr.., 
"order" : "asc" 


} 
下 
} 


你 可 以 看 到 ， 现 在 可 以 使 用 text_sort 作 为 脚本 的 名 称 。 此 外 ， 可 以 省 略 脚 本 语言 ， 
Elasticsearch 会 从 文件 扩展 名 判断 它 。 


使 用 本 地 代码 
如 果 脚 本 太 慢 ， 或 者 你 不 喜欢 脚本 语言 ，Elasticsearch 人 允许 你 使 用 Java 类 ， 而 不 是 脚本 。 
(1) 工厂 实现 类 


需要 实现 至 少 两 个 类 来 创建 新 的 本 地 脚本 。 第 一 个 是 我 们 脚本 的 工厂 。 现 在 ， 先 关注 它 。 下 
面 的 代码 示例 说 明了 我 们 的 脚本 工厂 : 





package pl.solr.elasticsearch.examples.scripts; 


import java.util.Map; 

import org.elasticsearch.common.Nullable; 

import org.elasticsearch.script.ExecutableScript; 
import org.elasticsearch.script.NativeScriptFactory; 


public class HashCodeSortNativeScriptFactory implements 
NativeScriptFactory { 





@Override 
public ExecutableScript newScript (@Nullable Map <string, Object> 
params) { 
return new HashCodeSortScript (params); 
} 
} 
重要 部 分 是 高 亮 的 代码 片段 。 这 个 类 必须 实现 org .elasticsearch.script.Native 
ScriptFactory 类 。 该 接口 强制 我 们 实现 newscript () 方 法 。 它 接收 定义 在 API 请 求 中 的 参数 ， 
返回 脚本 的 一 个 实例 。 


(2) 实现 本 地 脚本 


现在 让 我 们 看 看 脚本 的 实现 。 想 法 很 简单 : 我 们 的 脚本 将 用 于 排序 。 文 档 将 按照 选择 字段 的 
hashcode () 值 来 排序 ， 没 有 定义 该 字段 的 文档 将 是 第 一 个 。 我 们 知道 此 逻辑 没有 太 多 意义 ,但 
它 很 简单 ， 是 个 好 例子 。 本 地 脚本 源 代码 如 下 所 示 : 





package pl.solr.elasticsearch.examples.scripts; 


import java.util.Map; 
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import org.elasticsearch.script.AbstractSearchSscript; 


public class HashCodeSortScript extends AbstractSearchScript { 
private String field = "name"; 


public HashCodeSortScript (Map <string, Object> params) { 
IE (params != null && params.containsKey ("field")) { 
this.field = params.get ("field") .toSstring(); 
} 
} 


@Override 

public Object run() { 
Object value = source() .get (field); 
if (value != null) { 

return value.hashCode(); 

} 
return 0; 

} 

} 


首先 ,我们 的 类 从 org .elasticsearch.script.AbstractSearchScript 类 继承 并 实现 
run() 方 法 。 该 方法 从 当前 文档 中 得 到 适当 的 值 ， 并 且 根 据 我 们 的 奇怪 逻辑 来 处 理 后 ,返回 一 个 
结果 。 你 可 能 注意 到 了 source() ， 没 错 ， 它 和 我 们 在 非 本 地 脚本 中 碰 到 的 _source 参 数 完全 一 
样 。daoc() 和 fields () 方 法 同样 是 可 用 的 ， 与 之 前 描述 的 逻辑 一 样 。 


值得 一 看 的 是 我 们 使 用 这 些 参 数 的 方式 。 假设 用 户 会 填充 fie1lgd 参 数 ， 告 诉 我 们 文档 的 哪个 
字段 将 被 用 来 操纵 。 我 们 还 提供 了 此 参数 的 默认 值 。 


(3) 安装 脚本 


现在 来 安装 本 地 脚本 。 在 把 已 编译 的 类 封装 成 JAR 归 档 后 ， 应 该 把 它 放 在 Elasticsearch 的 lib 
目录 ， 这 使 我 们 的 代码 对 类 加 载 器 可 见 。 我 们 应 该 做 的 是 注册 脚本 ， 可 以 通过 Setting API 调 用 来 
实现 或 在 elasticsearch.yml 配 置 文件 添加 一 行 。 这 里 选择 使 用 elasticsearch.yml 脚 本 ,将 下 面 这 行 添 
加 到 上 述 配置 文件 : 

script.native.native_ sort.type: 


pl.solr.elasticsearch.examples.scripts. 
HashCodeSortNativeScriptFactory 


注意 native_sort 片 段 。 这 是 在 请 求 期 间 使 用 的 脚本 名 称 ， 它 将 会 被 传递 给 script 参 数 。 
此 属性 的 值 是 工厂 实现 的 完整 类 名 ， 它 将 用 来 初始 化 脚本 。 最 后 ， 需 要 重新 启动 Elasticsearch。 


(4) 执行 脚本 


已 经 重新 启动 Elasticsearch， 所 以 ,可 以 开始 使 用 本 地 脚本 发 送 查 询 。 例 如 ， 发 送 一 个 查询 ， 
使 用 之 前 的 1ibrary 索 引 中 的 数据 。 示 例 查询 如 下 所 示 : 
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{ 


"query" : { 
"match all" : { } 
js 
MSOEEY sr 
™ Striptr % { 
TSGript™ 3 "mative SOrt™; 
"params" : { 
FeLd” .TOETELE" 
3 
Iang™ * "native", 
"type" 3 String™, 
"order™ : SG" 


} 
} 
} 
注意 查询 的 params 部 分 , 在 这 个 请 求 中 ,要 对 otit1le 字 段 排 序 。 提 供 native_sort 作 为 脚 
本 名 字 、native 作 为 脚本 语言 ， 这 是 必需 的 。 如 果 一 切 顺 利 ， 应 该 看 到 结果 按 自 定义 排序 逻辑 
排序 。 在 Elasticsearch 的 响应 中 ， 我 们 会 看 到 ， 没 有 otit1le 字 段 的 文档 将 出 现在 结果 列表 的 最 上 
面 ， 它 们 的 sort 值 为 0。 




















5.3 ”搜索 不 同 语言 的 内 容 


此 前 ,在 讨论 语言 的 分 析 时 ,我 们 主要 谈 理 论 , 还 没 看 到 一 个 关于 语言 分 析 、 处 理 数 据 可 能 
包含 的 多 语言 例子 。 现 在 ,我们 将 讨论 如 何 处 理 多 语言 的 数据 。 





5.3.1 区 分 处 理 不 同 语言 


你 已 经 知道 ，Elasticsearch 能 为 数据 提供 不 同 的 分 析 需 ， 可 以 让 数据 以 空白 符 分 割 、 小 写 ， 
等 等 。 这 通常 可 以 处 理 不 同 语言 的 数据 : 应 该 可 以 把 基于 空白 符 的 分 词 器 用 在 英语 、 德 语 和 波兰 
语 (但 不 适用 于 中 文 )。 然而， 如 果 你 只 想 发 送 单词 cat 到 Elasticsearch ， 找 包含 cat 和 cats 的 文档 ， 
应 该 怎么 办 ?这 是 语言 分 析 起 作用 的 地 方 , 使 用 不 同 语言 的 词 干 提取 算法 , 分 析 单 词 , 回 退 到 词 
根 状态 。 


现在 最 糟糕 的 部 分 是 , 不 能 用 一 个 通用 的 词 干 提取 算法 来 处 理 世界 上 所 有 的 语言 ; 要 选择 一 
个 合适 的 语言 。 以 下 章节 将 帮助 你 理解 语言 分 析 过 程 的 某 些 部 分 。 















































5.3.2 ”多 语言 处 理 


Elasticsearch 中 有 几 种 处 理 多 语言 的 方法 ， 它 们 都 有 利 有 次 。 我 们 不 会 讨论 每 一 个 ， 为 了 让 
你 有 所 了 解 ， 列 出 如 下 方法 : 
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口 把 不 同 语言 的 文档 存储 成 不 同 的 类 型 ; 
口 把 不 同 语言 的 文档 存储 到 单独 的 索引 中 ; 
口 对 单一 文档 的 字段 存储 多 个 版 本 ， 每 个 版 本 包含 不 同 的 语言 。 

不 过 , 我 们 会 将 重心 放 在 一 个 能 够 将 多 语言 文档 存储 在 单个 索引 的 方法 。 将 注意 力 集中 在 这 
个 问题 上 : 文档 只 有 一 个 类 型 ， 但 它们 可 能 来 自 世 界 各 地 ， 因 此 可 以 有 多 种 语言 。 同 时 ,我 们 和 希 
望 用 户 在 不 同 语言 上 使 用 所 有 的 分 析 功 能 ， 如 词 干 提取 和 停止 词 ， 而 不 仅 是 英语 。 




















请 注意 ,不 同 语言 上 的 词 干 提取 算法 是 不 一 样 的 : 不 管 是 分 析 性 能 还 是 词 条 
结果 。 例 如 ， 英 语词 干 分 析 器 很 好 ， 但 在 欧洲 语言 ( 比如 德语 ) 上 执行 时 ， 可 能 


会 有 问题 。 


5.3.3 ”检测 文档 的 语言 


如 果 你 不 知道 文档 或 查询 的 语言 〈《 大 多 时 候 是 这 样 )， 可 以 使 用 语言 检测 软件 ， 在 一 定 程度 
上 可 以 检测 文档 或 查询 的 语言 。 如 果 使 用 Java， 可 以 使 用 几 个 可 用 的 语言 检测 库 之 一 。 比 如 下 面 


这 些 : 




















口 Apache Tika ( http://tika.apache.org/ ) ; 
口 Language detection (http://code.google.com/p/language-detection/ )。 








Language detection 库 声称 支持 53 种 语言 并 提供 99% 的 准确 度 ， 可 以 说 很 多 了 。 


应 该 记 住 , 文本 越 长 语言 检测 越 准确 。 然 而 ， 由 于 查询 的 文本 通常 很 短 ,， 你 可 能 会 在 查询 语 
言 识别 过 程 中 遇 到 一 定 程 度 的 错误 。 











5.3.4 “示例 文档 
先 介 绍 一 个 示例 文档 ， 如 下 所 示 : 


{ 


"title" : "First test document", 
"content" : "This is a test document", 
"Tang™ 2 “english" 


} 
可 以 看 到 ， 该 文档 很 简单 ， 包 含 如 下 3 个 字段 。 
D title: 该 字段 存储 文档 的 标题 。 


口 content : 该 字段 存储 文档 的 实际 内 容 。 
口 lang: 该 字段 定义 识别 语言 。 
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前 两 个 字段 从 用 户 的 文档 创建 而 来 ， 第 三 个 字段 是 我 们 的 假想 用 户 在 上 传 文档 时 选择 的 。 


为 了 通知 Elasticsearch 选 择 哪个 分 析 器 ， 我 们 把 1ang 字 段 映 射 到 Elasticsearch 的 分 析 器 之 一 
(分 析 需 的 完整 列表 可 以 在 这 里 找到 : http://www.elasticsearch.org/guide/en/elasticsearch/reference/ 
current/analysis-lang-analyzer.html )。 如 果 用 户 输入 了 一 个 不 支持 的 语言 ， 就 不 设置 1ang 字 段 ， 让 
Elasticsearch 使 用 默认 分 析 髓 。 











5.3.5 ”映射 文件 


来 看 看 为 上 述 文档 创建 的 映射 ， 把 它们 存储 在 mappings.json 文 件 中 ， 如 下 所 示 : 
{ 





"mappings" : { 
"doc™ .5 4 
"_analyzer" : { 
te 
js; 
"properties" : { 
Ve 
"type™ : string™", 
"index" : "analyzed", 
"Store" 3 mo”; 
"fieLds® > { 
"default" : { 
"tyBer &. “string, 
"index" : "analyzed", 
"store" : "no", 
"analyzer" : "simple" 
} 
} 
js 
"eontent™ 
"typer s Motring™, 
"index" : "analyzed", 
"Store™. 3 "nO" 
"fields™ 5 { 
"default" : { 
"Evpe™ 3 Vetrinog™; 
"index" : "analyzed", 
"store™ 5 “no, 
"analyzer" : "simple" 
} 
} 
}s 
"lang" : { 
"typer vetring"; 
"index" : "not_ analyzed", 
"store" : "yes" 
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} 
} 
} 
上 面 的 映射 中 , 我 们 最 感 兴 趣 的 是 分 析 器 定义 ,以 及 title 和 description 字 上 段 (如 果 你 还 
不 熟悉 映射 ， 请 参阅 2.2 节 )。 我 们 希望 分 析 器 基于 1ang 字 段 ， 因 此 ， 要 在 1ang 字 段 添 加 一 个 与 
Elasticsearch 知 道 的 分 析 需 的 名 字 相 同 的 值 ， 可 以 是 默认 的 ， 也 可 以 是 自 定 义 的 。 


其 次 是 拥有 实际 数据 的 两 个 字段 的 定义 。 你 可 以 看 到 , 我 们 使 用 多 字段 定义 来 索引 title 和 
description 字 段 。 多 字段 的 第 一 个 使 用 lang 字 段 指定 的 分 析 器 〈 因为 没有 指定 分 析 器 名 字 ， 
所 以 使 用 全 局 定义 的 那个 ) 来 建立 索引 ， 如 果 查 询 时 知道 指定 的 语言 ， 也 将 使 用 这 个 字段 。 多 字 
段 的 第 二 项 使 用 simple 分 析 器 , 不 知道 查询 语言 时 , 使 用 这 个 字段 。simple 分 析 器 只 是 个 例子 ， 
你 同样 可 以 使 用 标准 分 析 絮 或 其 他 任意 分 析 器 。 


为 使 用 这 个 映射 文件 创建 一 个 叫 aocs 的 简单 索引 ， 执 行 如 下 命令 : 



























































curl -XPUT '1Localhost:9200/docs' -Q emappings .json 


5.3.6 ”查询 
现在 看 看 如 何 查询 数据 。 把 查询 分 成 下 面 两 种 情况 。 
1. 用 识别 语言 查询 


第 一 种 情况 是 确定 了 查询 语言 。 假 设 识别 的 语言 是 英语 , 我 们 知道 英语 与 english 分 析 带 匹 
配 。 在 这 种 情况 下 ， 查 询 如 下 所 示 : 








Curl -XGET 'localhost:9200/docs/ search?pretty=true ' -d '{ 
"query" : { 
"match" : { 
"content" : { 
"query" : "documents", 
"analyzer" : "english" 
} 
} 
} 
于 


analyzezr 人 参数 指明 了 我 们 想 用 的 分 析 器 。 将 该 参数 设置 为 识别 语言 所 对 应 的 分 析 絮 的 名 字 。 
注意 ， 我 们 正在 寻找 的 词 条 是 aocuments 而 在 文档 中 的 词 条 是 aocument o engli sh 分 析 器 可 
以 处 理 这 个 情况 并 找到 文档 。Elasticsearch 返 回 的 响应 如 下 所 示 : 


{ 








"took" : 2， 

"timed out" : false, 

"_shards" : { 
"total" : 5, 
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"successful" : 5， 
"failed" : 0 
}s 
"hits" : { 
"total" : 1, 
"max_ score" : 
"its" ss [ { 
"_ index" : "docs", 
"_type" : "doc", 
dr ss TL 
"_score" : 0.19178301 
}1] 


0.19178301, 


} 
} 


2. 用 未 知 语言 查询 


假设 不 知道 用 户 查 询 使 用 的 语言 。 此 时 ， 不 能 使 用 由 lang 字 段 指 定 的 分 析 器 ， 


因为 我 们 不 


想 用 一 个 特定 于 语言 的 分 析 需 来 分 析 查 询 。 在 这 种 情况 下 ， 用 标准 的 简单 分 析 器 ， 发 送 查 询 到 


contents.default 字 段 ， 而 不 是 content 字 段 。 查 询 如 下 所 示 : 











Curl -XGET 'localhost:9200/docs/_ search?pretty=true ' -d '{ 
"query" : { 
"match" : { 
"content.default" : { 
"query" : "documents", 
"analyzer" : "simple" 
} 
} 
} 
昌江 
然而 ， 这 次 没有 得 到 任何 结果 ， 因 为 搜索 单词 的 复数 形式 时 ，simple 分 析 器 不 能 处 理 它 的 
单数 形式 。 


3. 组 合 查询 


为 了 对 完美 匹配 默认 分 析 需 的 文档 额外 加 权 ， 可 以 把 上 述 两 个 查询 用 bool1 查 询 组 合 起 来 ， 


如 下 所 示 : 
Curl -XGET 'localhost:9200/docs/_ search?pretty=true ' -d '{ 
mm query" 2 { 
"bool" : { 


"minimum should match" : 1, 
"should" : [ 


{ 
"match" : { 
"content" : { 
"query" : "documents", 


"analyzer" : 
} 


"english" 
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} 
ys 
{ 
"match" : { 
"content .default" : { 
"query" : "documents", 
"analyzer" : "simple" 


返回 的 文档 至 少 必须 匹配 一 个 定义 的 查询 。 如 果 两 者 都 匹配 ,文档 将 具有 更 高 的 分 数值 ， 并 
在 结果 中 放置 得 更 高 。 

前 面 的 组 合 查询 有 一 个 额外 的 优势 : 如 果 我 们 的 语言 分 析 需 找 不 到 一 个 文档 〈 例 如 ， 所 用 的 
分 析 跟 在 索引 期 间 使 用 的 不 一 样 时 ), 第 二 个 查询 有 机 会 找到 只 用 空白 字符 分 词 和 小 写 形式 的 词 条 。 














5.4 ”使 用 查询 加 权 影 响 得 分 


上 一 章 介绍 了 什么 是 得 分 以 及 Elasticsearch 如 何 计算 它 。 随 着 应 用 程序 的 增长 ， 提 高 搜索 质 
量 的 需求 也 进一步 增 大 。 我 们 把 它 叫 做 搜索 体验 。 我 们 需要 知道 什么 对 用 户 更 重要 , 关注 用 户 如 
何 使 用 搜索 功能 。 这 导致 不 同 的 结论 ， 例 如， 有 些 文档 比 其 他 的 更 重要 ,或 特定 查询 需 强 调 一 个 
字段 而 弱化 其 他 字段 。 这 就 是 可 以 用 到 加 权 的 地 方 。 











5.4.1 加 权 
加 权 是 一 个 评分 过 程 中 额外 使 用 的 值 。 我 们 已 经 知道 它 适用 于 下 列 地 方 。 


口 query: 这 可 以 通知 搜索 引擎 ， 给 定 查 询 是 复杂 查询 的 一 部 分 ， 而 且 比 其 他 部 分 更 重要 。 
口 fiel1d: 有 几 个 文档 字段 对 用 户 非常 重要 。 例 如 ， 以 Bill 搜 索 电子 邮件 ,应 该 首先 列 出 
那些 发 送 自 Bill 的 邮件 ， 紧 随 其 后 列 出 主题 中 含有 Bill 的 邮件 ， 然 后 是 内 容 中 提 到 Bill 
的 邮件 。 


站 定 给 查询 或 字段 的 加 权 值 只 是 计算 分 数 时 的 众多 因素 之 一 ,我 们 都 应 意识 到 这 一 点 。 现 在 ， 
看 几 个 查询 的 例子 。 























5.4.2 ”为 查询 添加 加 权 
假设 索引 有 两 个 文档 ， 第 一 个 文档 如 下 所 示 : 
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Ws 

TEe"™ "John Smith", 
"FEOmY "David Jones", 
"subject" "Top secret!" 


} 
第 二 个 文档 如 下 所 示 : 


{ 

Ws i 

REG7 "David Jones", 

"from" "on "Smith™, 

"subject" "John, read this document" 
} 


数据 很 简单 ， 但 它 应 


{ 


T query "  : { 
"query_string" : { 
中 query nn nn 本 ohn mn 


"use_dis max" : false 


} 
在 这 个 例子 中 ，Elasticsearch 将 为 _all 字 段 创 建 一 个 

















的 两 条 记录 都 将 返回 ， 


subject 字 段 。 ， a 
"hits" : { 
"total": 2, 
"max score": 
"hits": [{ 
"_ index": "messages", 
" type": "email", 
"Lan Tan 
"_score": 0.13561106," source": 
{"id": 1,"to": "David Jones","from": 
"John Smith","subject": 
}, 1{ 
"_ index": "messages", 
" type": "email", 
"_ id": "1", 
"_score": 0.11506981,"_ source": 
{"id": 2,"to": "John Smith","from": 
"David Jones","subject": "Top secret!"} 
}1] 


0.13561106, 


图 灵 社 区 会 


员 打 顺 顺 (lvshun@live.cn) 专 享 


应 该 很 好 地 摘 述 了 我 们 的 问题 。 现 在 ,假设 有 以 下 查询 : 





查询 ， 并 将 查找 包含 所 需 文字 的 文档 。 





通过 把 use_dis_max 参 数 设 为 false， 告 诉 Elasticsearch 不 希望 使 用 disjunction 查 询 (如 果 你 
8 请 参阅 3.3 节 中 的 最 大 分 查询 和 字符 串 
示 识 符 等 于 2 的 那个 将 第 一 个 返回 。 这 是 由 于 John 分 别 出 现 在 from 字 段 和 








出 


查询 部 分 ) 很 容易 猜 到 , 我们 








"John, read this document"} 
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一 切 都 正常 吗 ? 技术 上 来 说 , 是 的 。 但 我 认为 第 二 个 文档 应 该 出 现在 结果 列表 的 第 一 位 ， 因 
为 搜索 时 ,在 许多 情况 下 ， 最 重要 的 因素 是 匹配 人 ， 而 不 是 消息 主题 。 你 可 能 不 同意 ,但 这 正好 
解释 了 为 什么 全 文 搜索 的 相关 性 是 一 个 困难 的 课题 :有 时 ,很 难 判断 在 特定 情况 下 哪个 排序 更 好 。 
我 们 能 做 什么 ? 首先 ， 重 写 查询 ， 间 接 告知 Elasticsearch 应 使 用 哪些 字段 搜索 ， 如 下 所 示 : 
{ 
"query" : { 
"query_string" : { 
"fielde. % ["ErEOMm: "to", vaubjecet”l 
aUery. 人 GD 
"use_dis max" : false 
} 


} 
} 


这 和 上 一 个 示例 查询 不 完全 一 样 。 运 行 它 ,， 将 得 到 同样 的 结果 , 但 如 果 仔 细 观 察 ， 你 会 发 现 
在 得 分 上 的 差异 。 在 上 一 个 示例 中 ，Elasticsearch 只 使 用 一 个 字段 ，_al1。 现 在 我 们 在 3 个 字段 上 
搜索 。 这 意味 着 有 些 因素 改 变 了 ， 如 字段 长 度 等 。 不 过 ， 这 在 我 们 的 例子 中 不 是 那么 重要 。 在 底 
层 ，Elasticsearch 生 成 由 3 个 查询 组 成 的 复杂 查询 : 每 个 字段 一 个 查询 。 当 然 ， 每 个 查询 的 贡献 得 
分 取决 于 这 个 字段 上 找到 的 词 条 数 以 及 这 个 字段 的 长 度 。 我 们 介绍 一 些 字 段 之 间 的 差异 。 将 下 面 
的 查询 同 前 面 的 查询 相 比较 : 

"query" : { 
"query_ string" : 1 
"Fields" ss ["fromrs", “tor10", "subjeet"]:; 
"query™ 2 "JOnn", 
"use_dis max" : false 
} 


} 
} 


看 看 高 亮 显示 的 部 分 (^3 和 ^10 )。 通 过 这 种 方式 ， 可 以 告诉 Elasticsearch 给 定 字段 的 重要 程 
度 。 我们 看 最 重要 的 字段 是 co， 其 次 是 from。subject 字 上 段 的 boost 为 默认 值 ， 即 1.0。 永远 记 
住 ， 这 个 值 只 是 各 种 因素 之 一 。 你 可 能 想 知道 为 什么 选择 5， 而 不 是 1000 或 1.23。 嗯 ， 这 取决 于 
我 们 想 要 达到 的 效果 ， 有 什么 样 的 查询 ， 更 重要 的 是 在 索引 中 有 什么 样 的 数据 。 通 常 ， 当 数据 有 
意义 的 部 分 发 生变 化 时 ,也许 我 们 应 该 再 次 检查 和 调整 相关 性 。 最 后 ， 看 一 个 类 似 的 例子 ,但 这 
次 使 用 bool 查询 ， 如 下 所 示 : 
















































































EGG 
BOOL™ 沁 二 
"ShouLd" [| 
{ term™ so € "froms { "value. ss "Jonm'., "boost™ s BG }}}y 
{ "Eerm™ s TEoOv™ { "value™ ® “John"; “boost" x 10 3}}}; 
{ "term" : { "subject": { "value" : "john" }}} 


] 
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5.4.3 ”修改 得 分 

前 面 的 示例 演示 了 如 何 通 过 加 权 特 定 查 询 组 件 来 影响 结果 列表 。 男 一 种 方法 是 运行 一 个 查询 
来 影响 匹配 文档 的 得 分 。 接 下 来 几 节 将 总 结 Elasticsearch 提 供 的 几 种 可 能 性 。 我 们 将 在 例子 中 使 
用 第 3 章 中 用 过 的 数据 。 

1. constant_score 查 询 

constant_score 查 询 允 许 我 们 对 任何 过 滤器 或 查询 明确 设置 一 个 被 用 作 得 分 的 值 , 它 将 通 
过 加 权 参 数 赋 给 每 个 匹配 文档 。 

乍 看 起 来 ， 此 查询 并 不 实际 。 但 考虑 到 建立 复杂 查询 的 情况 ,这 种 查询 允许 我 们 设置 多 少 个 
匹配 查询 的 文档 可 以 影响 总 分 。 看 看 下 面 的 示例 : 

{ 


























"query" : { 
"constant_score" : { 
"query": { 
"query_string" : { 
"query" : "available:false author:heller" 


} 
} 


} 
} 
} 


在 我 们 的 数据 中 ， 有 两 个 文档 的 available 字 段 为 false， 其 中 一 个 在 authozr 字 段 上 有 值 。 
但 由 于 constant_score 查 询 ，Elasticsearch 将 在 评分 时 忽略 此 信息 ， 两 个 文档 的 得 分 都 是 1.0。 


2. 加 权 查 询 


下 一 个 与 加 权 相 关 的 查询 是 加 权 查 询 。 它 允许 我 们 定义 一 个 查询 的 额外 部 分 , 用 于 降低 匹配 
文档 的 得 分 。 下 面 的 例子 列 出 所 有 图 书 ， 但 E.M.Remarque 写 的 书 得 分 将 低 10 倍 : 


{ 
"query" : { 
nhoosting ys A 
BOSitiver ss { 
"term" : { 
"available" : true 


} 








js 
"negative" : { 
"match" : { 

"author" : "remarque" 
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} 
} 
"negative boost" : 0.1 
} 
} 
} 


3. function _score 查 询 
我 们 已 经 看 过 两 个 允许 改变 查询 返回 文档 得 分 的 例子 。 第 三 个 例子 , 我 们 想 谈 谈 function_ 


score 查 询 ， 它 比 之 前 的 查询 更 复杂 。 这 个 查询 在 得 分 计算 成 本 高 昂 时 非常 有 用 ， 因 为 它 将 计算 
过 滤 后 文档 的 得 分 。 


(1) 函数 查询 的 结构 




















函数 查询 的 结果 很 简单 ， 看 上 去 如 下 所 示 : 


{ 
"query" : { 

"function score™ 3 4 
人 
ELITEEEY s {i 
Eunetiones". :| 

{ 
"EiLteEY SA van 下 
"FUNCTION®™ ¢ { 于 
} 


"boost_mode" : " 
"score mode" : " 
"max_boost" : " 
"boost, 3 
} 
} 
} 


一 般 来 说 ，function_score 查 询 中 可 以 使 用 查询 、 过 滤 、 函 数 和 附加 参数 。 每 个 函数 可 以 
有 一 个 过 滤器 定义 要 应 用 的 过 滤 结 果 。 如 果 一 个 函数 没有 定义 过 滤器 ， 它 将 应 用 到 所 有 文档 。 











function_score 查 询 背后 的 逻辑 很 简单 。 首 先 ， 函 数 匹 配 文档 并 基于 score_modae 人 参数 计 
算得 分 。 然 后 ， 文 档 的 查询 得 分 由 函数 计算 所 得 分 数 结合 而 成 ， 结 合 时 基于 boost_mode 人 参数 。 


我 们 现在 来 讨论 以 下 参数 。 














口 boost_mode: boost_mode 参 数 人 允许 定义 如 何 将 函数 查询 所 计算 分 数 与 查询 分 数 结合 起 
来 。 可 以 将 它 设置 成 下 列 值 。 
multiply: 这 是 默认 行为 ， 查 询 得 分 将 与 函数 计算 所 得 分 相 乘 。 
zeplace: 导致 查询 得 分 全 部 被 忽略 ， 文 档 得 分 等 于 函数 计算 所 得 分 。 
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m sum: 文档 得 分 等 于 查询 得 分 和 函数 得 分 的 总 和 。 

m avg: 文档 得 分 等 于 查询 得 分 和 函数 得 分 的 平均 值 。 
m max: 文档 得 分 等 于 查询 得 分 和 函数 得 分 的 最 大 值 。 
m min: 文档 得 分 等 于 查询 得 分 和 函数 得 分 的 最 小 值 。 


口 score_mode: 该 参数 定义 了 函数 计算 所 得 分 是 如 何 结合 在 一 起 的 。 以 下 是 该 参数 可 以 设 
置 的 值 。 


multiply: 这 是 默认 行为 ， 结 果 是 查询 得 分 乘 以 函数 的 得 分 。 
和 sum: 把 所 定义 的 函数 的 得 分 相 加 。 

和 avg: 限 数 得 分 等 于 所 有 匹配 函数 得 分 的 平均 值 。 

first:; 把 第 一 个 拥有 匹配 文档 过 滤器 的 函数 的 得 分 返回 。 
max: 返回 所 有 函数 得 分 的 最 大 值 。 

min: 返回 所 有 因数 得 分 的 最 小 值 。 


要 记 住 , 可 以 通过 使 用 function_score 查 询 中 的 max_boost 人 参数 来 限制 最 大 计算 得 分 。 默 
认 情 况 下 ， 这 个 参数 的 值 被 设 为 Float .MAX_VALUE， 意 思 是 最 大 浮 点 值 。 


boost 参数 允许 我 们 为 文档 设置 一 个 查询 范围 的 加 权 值 。 
我 们 还 没 谈 到 可 以 包含 到 查询 的 functions 节 点 中 的 函数 ， 下 面 是 目前 可 用 的 函数 。 


口 poost_factor 清 数 : 这 个 函数 允许 我 们 把 文档 分 数 乘 以 一 个 给 定 值 。 boost_factor 参 
数 的 值 不 会 被 范式 化 ， 而 是 原原本本 的 值 。 下 面 是 使 用 boost_factor 参 数 的 一 个 例子 : 


{ 
"query" : { 
"function SCore™ 3 { 
"query" : { 
"term" : { 
"available" : true 


} 






























































3 
"funetions. Sl 
{ boost factor™ 3 20 } 
] 
} 
} 
} 


口 script_score 国 数 : 这 个 函数 允许 我 们 使 用 一 个 脚本 来 计算 得 分 ， 用 于 函数 返回 的 得 
分 (然后 将 落 到 boost_mode 参 数 定义 的 行为 中 去 )。 使 用 script_score 国 数 的 例子 如 
下 所 示 : 





"query" : { 
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"funetion .seore" 3 4 
= 有 和 
"term" : { 
"available" : true 
} 
} 
"unctione. "1[ 
{ 
vseript_ Seore™ 3s { 
"script" : "_score * _source.copies * 
parameter1", 
"params" : { 
"parameter1l" : 12 





口 xandom_score 国 数 : 使 用 这 个 函数 ， 可 以 通过 指定 seed 值 来 生成 一 个 伪 随 机 分 数 。 为 
了 模拟 随机 性 ， 每 次 都 应 指定 一 个 新 的 seeq。 一 个 使 用 此 功能 的 例子 如 下 所 示 : 


{ 
"query" : { 
"funotion Seore" 3 4 
"query" : { 
"term" : { 
"available" : true 
} 
站 
ee 二 
{ 
"random_ score" : { 


"seed" : 12345 


Daecay 函 数 : 除了 前 面 提 到 的 评分 函数 以 外 ，Elasticsearch 包 含 了 额外 的 aecay 函 数 。 前 
述 函数 给 出 的 分 数 随 着 距离 变 大 而 变 低 ， 该 函数 则 不 同 。 距 离 基于 一 个 单 值 的 数值 型 字 
段 (比如 日 期 、 地 理 位 置 点 或 标准 的 数值 型 字段 ) 计算 而 来 。 最 容易 想到 的 例子 是 基于 
与 一 个 给 定点 的 距离 来 加 权 文档 。 








假设 有 一 个 point 字 段 , 存储 着 位 置信 息 , 我 们 希望 文档 的 得 分 受 与 用 户 所 在 位 置 的 距离 影 
响 ( 比如 ,用户 用 手机 设备 发 送 请 求 )， 用 户 在 52，21 这 个 位 置 ， 我 们 可 以 发 送 如 下 查询 : 
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{ 
"query" : { 
"function_ score" : { 
"query" : { 
"term" : { 
"available" : true 
} 
ja 
"functions" : [ 
{ 
"linear" : { 
"DOLNt™ a A 
vorLgin #2 ZL 
"Scale" : "lkm", 
"offset" : 0, 
"decay”" ; 0.2 


在 前 面 的 示例 中 ，1inear 是 decay 函 数 的 名 称 。 使 用 它 时 ， 值 将 线性 衰退 。 其 他 可 能 的 值 
是 gauss 和 exp。 我 们 选择 了 1inear 衰 减 郊 数 ， 因 为 当 字段 值 两 次 超过 给 定 值 时 , 它 把 分 数 设置 
为 0。 当 你 想 把 较 低 的 值 赋 予 太 远 的 文档 时 ， 这 是 非常 有 用 的 。 


在 此 给 出 相关 方程 ， 让 你 了 解 得 分 是 如 何 通 过 给 定 函 数 计算 的 。1inear 豪 减 函 数 使 用 以 下 
公式 来 计算 得 分 文档 : 

















本 max| 0 scale—| field value — origin | 


scale 


gauss 衰 减 国 数 使 用 以 下 公式 来 计算 得 分 文档 : 





(field value — origin) 
2scale” 


SCOre = oo |- 


exp 衰 减 函 数 使 用 以 下 公式 来 计算 得 分 文档 : 





ee 
seore =exp( -LE d value em 


scale 
当然 ， 你 不 需要 每 次 都 使 用 纸 笔 计算 文档 ， 但 偶尔 需要 时 ， 这 些 函 数 很 方便 。 
现在 ， 让 我 们 讨论 一 下 查询 结构 的 其 余部 分 。 我 们 想 用 point 字 段 作 得 分 计算 。 如 果 文 档 没 
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有 该 字段 的 值 ， 在 计算 时 会 得 到 一 个 值 为 1。 


此 外 ， 我 们 提供 了 额外 的 参数 。origin 和 scale 参 数 是 必需 的 。origin 是 中 心 点 ,计算 从 
此 点 开始 。scale 是 衰变 率 。 默 认 情 况 下 ，offset 参 数 设 置 为 0; 如 果 定 义 了 该 参数 ，decay 函 
数 将 只 计算 文档 值 比 此 参数 的 值 大 的 文档 得 分 。decay 参 数 告 诉 Elasticsearch 应 该 降低 多 少 分 数 ， 
默认 设置 为 0.5。 在 我 们 的 例子 中 ， 我 们 要 求 ， 在 1 公里 的 距离 ， 得 分 应 该 会 减少 20% ( 0.2 )。 














我 们 期 望 新 版 的 Elasticsearch 会 扩展 可 用 函数 的 数量 ， 建 议 跟 进 官方 文档 ， 
function score 查询 的 专属 页 面 可 访问 这 里 : http://www.elasticsearch.org/ 
guide/en/elasticsearch/reference/current/query-dsl- function-score-query.html。 
4. 弃 用 查询 


在 介绍 function_score 查 询 之 后 , custom boost、custom score 和 custom filters_ 
score 查 询 被 弃 用 。 以 下 部 分 演示 如 何 使 用 function_score 查 询 实 现 与 这 些 查询 相同 的 结果 。 
本 节 为 想 从 Elasticsearch 旧 版 本 迁移 并 通过 修改 来 移 除 废弃 查询 的 人 提供 一 个 参考 。 


























(1) 更 换 custom_boost_factor 查 询 


假设 我 们 有 如 下 的 custom_boost_factor 查 询 : 


{ 


"query" : { 
"Custom boost_factor" : { 
"query": { 
"term" : { "author" : "heller" } 


} 
"boost_ tactor": 5.0 
} 
} 
} 


为 使 用 function_score 查 询 来 取代 上 述 查 询 ， 可 以 使 用 下 列 查询 : 


{ 








"query" : { 
"Funetion seore™ 3 4 
"query": { 
"term" : { "author" : "heller" } 
} 
"funetiones. :|[ 


{ "boost. factor": 5.0 } 
] 
} 
} 
} 
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(2) 更 换 custom_score 查 询 





第 二 种 废弃 查询 是 custom_score, 假设 有 如 下 的 custom_score 查 询 : 


{ 


"query" : { 
"custom score" : { 
"query" : { "match all" : {} }, 
"seript" : "_source.copies * 0.5" 
} 
} 


} 


如 果 想 用 function_score 查 询 取 代 它 ， 将 如 下 所 示 : 


{ 
"query" : { 
"function_ score" : { 
"boost_mode" : "replace", 
"query" : { "match all" : {} }, 
"Funetionms". s [| 
{ 
SCript SGOrev .3 4 
"script" : "_source.copies * 0.5" 
} 
} 
] 
} 
} 


(3) 更 换 custom _ filters_score 查 询 





最 后 要 讨论 的 是 custom_filters_score 查 询 ， 假 设 有 如 下 查询 : 


{ 
"query" : { 

"custom filters_score" : { 
"query" : { "match all" : {} }, 
"filters" : [ 

{ 
"filter" : { "term" : { "available" : true }}, 
"Doost™ x 工 0 
} 
Yi 
"score_ mode" : "first" 
} 
} 
} 


如 果 想 用 function_score 查 询 取 代 它 ， 将 如 下 所 示 : 
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{ 
"query" : { 
"function_ score" : { 
"query" ; { "matchall" 3 {} 3}; 
"Eunetionesr .| 
{ 
"E11 2 { "emm 3 { "avallable” » true }3., 
"boost tactor™ :10 
} 
本 
"score_mode" : "first" 


} 
} 
} 


5.5 索引 时 加 权 何 时 有 意义 


前 一 节 讨论 了 对 查询 进行 加 权 。 这 种 类 型 的 加 权 非 常 方 便 和 强大 , 在 大 多 数 情况 下 满足 需求 。 
然而 ， 如 果 当 我 们 在 建立 索引 时 就 知道 哪些 文档 重要 ， 更 方便 的 方法 是 使 用 索引 时 加 权 。 


我 们 获得 独立 于 查询 的 一 个 加 权 , 成 本 是 重建 索引 ( 在 加 权 值 变化 时 , 我 们 需要 重建 索引 )。 





此 外 ， 由 于 加 权 过 程 中 已 经 在 索引 时 计算 ， 人 性 


























能 会 稍 好 一 些 。Elasticsearch 把 加 权 的 信息 存储 为 








规范 化 信息 的 一 部 分 。 很 重要 的 是 ， 如 果 把 omit_norms 设 置 为 true， 就 不 能 使 用 索引 时 加 权 。 


5.5.1 在 输入 数据 中 定义 字段 加 权 
我 们 看 一 个 典型 的 文档 定义 ， 如 下 所 示 : 


{ 


"title" : "The Complete Sherlock Holmes", 


"author" : "Arthur Conan Doyle", 
"year" : 1936 
} 


如 果 想 为 这 个 特定 文档 的 author 字 段 加 权 , 结构 应 该 会 略 有 变化 , 文档 看 起 来 应 该 如 下 所 示 : 


{ 


"title" : "The Complete Sherlock Holmes", 
auniorm" 党 
"_value" : "Arthur Conan Doyle", 
"boost™ 10%0; 


}, 
"year": 1936 
} 


就 是 这 些 。 在 上 述 文档 被 编制 到 索引 后 ， 我 们 会 让 Elasticsearch 知 道 author 字 上 段 的 重要 性 大 





于 其 他 字段 。 
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在 旧版 本 Elasticsearch 中 ,设置 文档 范围 的 加 权 是 可 能 的 。 然 而 ,从 4.0 开 始 ， 
CW Lucene 不 支持 文档 范围 的 加 权 ，Elasticsearch 靠 加 权 所 有 字段 来 模拟 文档 的 加 权 。 
Elasticsearch 1.0 废 弃 了 文档 提升 ， 我们 决定 不 写 它 ， 因 为 它 将 被 删除 。 


5.5.2 ”在 映射 中 定义 加 权 
值得 一 提 的 是 可 以 直接 在 映射 文件 中 定义 字段 的 加 权 。 下 面 的 示例 演示 了 这 一 点 


{ 





"mappings" : { 
"Hook™ i 芭 
"properties" : { 
"tL Ee Metering ; 
"author™ : { “type”™ 3 “string”, "boost™ 3 10.,.0. 3} 


} 
} 
} 
} 


因为 上 述 加 权 ， 所 有 查询 将 对 以 authoz 命 名 的 所 有 字段 加 权 。 这 也 适用 于 使 用 _al1 字 段 的 
查询 。 





5.6 同义词 
你 应 该 听 说 过 同义词 : 有 相同 或 相近 意思 的 词语 。 有 时 ， 当 一 个 词 输入 搜索 框 时 ， 我们 希望 
其 他 一 些 词 也 被 匹配 。 回 忆 一 下 3.1.1 节 ， 省 术 书 则 GEaans and Punishment。 如 果 我 们 希望 这 


本 书 不 仅 在 搜索 crime 或 punishment 时 匹配 到 ， 也 可 使 用 criminality 和 abuse 搜 索 到 ， 就 要 
使 用 同义词 。 























5.6.1 同义词 过 滤器 


为 了 使 用 同义词 过 滤器 , 我 们 需要 定义 自己 的 分 析 器 ， on 使 用 空格 分 词 器 和 一 
个 叫 synonym 的 过 滤器 。 该 过 滤器 的 类 型 属性 必须 设置 为 synonym， 它 告诉 Elasticsearch， 该 过 
滤器 是 一 个 同义词 过 滤器 。 此 外 , 我 们 希望 忽略 大 小 写 ， 对 大 写 和 小 写 的 同义词 一 视 同 仁 (设置 
ignore_case 属 性 为 true )。 自 定义 一 个 使 用 同义词 过 滤 需 的 分 析 器 ， 需 要 以 下 映射 : 


上 
"index" : { 
"analysis" : { 
"analyzer" : { 
"synonym" : { 
"tokenizer" : "whitespace", 
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"filter" : [ 
"synonym" 
] 
} 
}; 
于 下 攻 GE 六 渤 
"synonym" : { 
"type"” : "Synonym", 
"ignore case" : true, 
"synonyms" : [ 
vorime :=> riminallity" 


1. 映射 中 的 同义词 
在 前 面 的 定义 中 ， 我 们 在 映射 中 指定 了 发 给 Elasticsearch 的 同义词 规则 。 为 此 ， 需 要 添加 
synonyms 属 性 , 这 是 一 个 同义词 规则 的 数组 ,例如 , 下面 映射 的 一 部 分 定义 了 一 个 同义词 规则 : 


"synonyms" : [ 
"crime => criminality" 























] 

我 们 马上 将 讨论 如 何 定义 同义词 规则 。 

2. 存储 在 文件 系统 中 的 同义词 

Elasticsearch 还 允许 我 们 使 用 基于 文件 的 同义词 。 为 使 用 文件 ， 需 要 指定 synonyms_path 属 
性 ,而 不 是 synonyms 属 性 。synonyms_path 属 性 应 该 设 成 含有 同义词 定义 的 文件 名 ,文件 路 径 
应 该 相对 于 Elasticsearch 的 config 目 录 。 所 以 ， 如 果 我 们 将 同义词 保存 在 config 目 录 的 synonyms.txt 
文件 中 ,为 了 使 用 它 ， 应 该 把 synonyms_path 设 置 成 synonyms.txt。 

如 果 要 使 用 存储 在 文件 中 的 同义词 ， 前 面 映射 文件 中 的 同义词 过 滤器 将 如 下 所 示 : 






































EE 
"synonym" : { 
"type" : "synonym", 
"synonyms_path" : "synonyms.txt" 


} 
} 


5.6.2 ”定义 同义词 规则 
到 现在 为 止 ， 我们 讨论 了 要 做 什么 才能 在 Elasticsearch 中 使 用 同义词 扩展 。 现 在 ， 让 我 们 看 
看 允许 同义词 使 用 哪些 格式 。 
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1. 使 用 Apache Solr 同 义 词 


Apache Lucene 世 界 中 最 常见 的 同义词 结构 可 能 是 Apache Solr 用 的 那个 ，Apache Solr 是 基于 
Lucene 的 一 个 搜索 引擎 ， 就 像 Elasticsearch 一 样 。 这 是 Elasticsearch 处 理 同 义 词 的 默认 方法 ， 以 下 


各 节 讨 论 定义 一 个 新 同义词 的 可 能 性 。 











(1) 显 式 同义词 


简单 的 映射 允许 把 一 个 单词 列表 映射 到 其 他 单词 。 所 以 ， 在 我 们 的 例子 中 ， 如 果 要 
criminality 有 映射 到 crime、abuse 映 射 到 punishment， 需 要 定义 以 下 条 目 : 


criminality => crime 
abuse => punishment 


当然 ,一 个 单词 可 以 映射 到 多 个 单词 ， 多 个 单词 也 能 被 映射 到 单个 单词 ， 如 下 所 示 : 

star wars, wars => starwars 

前 面 的 示例 意味 着 ，star wars 和 wars 将 被 synonym 过 滤器 换 成 starwars。 

(2) 等 效 同 义 词 

除了 显 式 映射 以 外 ，Elasticsearch 人 允许 我 们 使 用 等 效 同义词 。 例 如 ， 下 面 的 定义 会 使 所 有 单 
词 可 交换 ， 你 可 以 使 用 其 中 一 个 单词 ， 来 匹配 包含 其 中 一 个 单词 的 文档 : 

star, wars, star wars, starwars 

(3) 扩展 同义词 


使 用 Apache Sotr 格 式 的 时 候 ， 同 义 词 过 滤器 允许 我 们 使 用 一 个 额外 的 expandq 属 性 。 当 
expand 属 性 设置 为 true ( 默认 为 false )，Elasticsearch 将 所 有 同义词 扩大 到 所 有 等 价 形式 。 假 
设 我 们 有 以 下 过 滤 需 配置 











yfF]tery 
"synonym" : { 
"type” : "gynonym", 
"expand": false, 
"synonyms" : [ 


"one, two, three" 
] 
} 
} 


Elasticsearch 将 把 前 面 的 同义词 定义 映射 如 下 : 














one, two, thee => one 


这 意味 着 ，one 、two、three 将 被 更 改 为 one。 如 果 expand 属 性 设置 为 Lrue， 相 同 的 同 义 








图 灵 社 区 会 员 打 顺 顺 (lvshun@live.cn) 专 享 尊重 版 权 





164 第 5 章 更 好 的 搜索 





词 定义 将 以 下 列 方式 解释 : 
one, two, three => one, two, three 
这 基本 上 意味 着 左 侧 的 每 个 单词 将 扩展 为 右 侧 的 所 有 单词 。 
2. 使 用 WordNet 同 义 词 


如 果 想 使 用 WordNet 结 构 的 同义词 ( 学 习 更 多 关于 WordNet， 请 访问 http://wordnet.princeton. 
edu )， 我 们 需要 为 同义词 过 滤器 提供 额外 的 format 属 性 ， 应 将 其 值 设 置 为 wordnet ， 以 便 
Elasticsearch 理 解 。 





5.6.3 ”查询 时 或 索引 时 的 同义词 扩展 


与 所 有 分 析 器 一 样 ， 你 可 能 会 问 我 们 应 该 在 什么 时 候 使 用 同义词 过 滤器 : 在 索引 期 间 , 在 查 
询 期 间或 者 两 者 丝 可 ? 当然 ， 这 取决 于 你 的 需求 。 但 是 记 住 ， 如 果 使 用 索引 时 同义词 ， 在 每 个 同 
义 词 更 改 后 ， 需 要 重新 索引 数据 。 那 是 因为 它们 需要 重新 应 用 到 所 有 文档 。 如 果 只 使 用 查询 时 同 
义 词 ， 我 们 可 以 更 新 同义词 列表 ， 在 查询 时 应 用 。 


















































5.7 理解 解释 信息 


与 数据 库 相 比 , 使 用 能 执行 全 文 搜索 的 系统 往往 不 那么 显而易见 。 我 们 可 以 同时 搜索 多 个 字 
段 ， 在 索引 中 的 数据 可 以 和 提供 的 文档 字段 值 不 同 〈 因 为 分 析 过 程 、 同 义 词 、 缩 写 等 )。 甚 至 更 
糟 的 是 ,默认 情况 下 ,搜索 引擎 按照 数据 的 相关 性 排序 : 一 个 表示 文档 相对 于 查询 的 相似 性 的 数 
字 ， 这 里 的 关键 是 相似 性 。 我 们 已 经 讨论 过 ， 得 分 需要 考虑 很 多 因素 : 在 文档 中 发 现 了 搜索 词 ， 
词 出 现 的 频率 ,字段 中 包含 多 少 词 条 ,等 等 。 这 看 上 去 很 复杂 ,而 且 要 想 知 道 为 什么 一 个 文档 被 
找到 ,为 什么 男 一 个 文档 “更 好 ”是 不 容易 的 。 好 在 Elasticsearch 的 一 些 工具 可 以 回答 这 些 问 题 ， 
我 们 现在 来 看 看 。 






































5.7.1 理解 字段 分 析 


最 常见 的 问题 之 一 是 为 什么 找 不 到 给 定 文档 。 在 许多 情况 下 , 问题 在 于 映射 的 定义 和 分 析 流 
程 的 配置 。 为 了 调试 分 析 过 程 ，Elasticsearch 提 供 一 个 专门 的 REST API 端 点 ，_analyze。 


让 我 们 先 看 Elasticsearch 的 默认 分 析 需 返回 的 信息 。 运 行 以 下 命令 : 





Curl -XGET 'localhost:9200/ analyze?pretty' -d 'Crime and Punishment' 


响应 中 ， 我 们 将 得 到 如 下 数据 : 
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{ 
"tokens" : [ { 
"token" : "crime", 
"start offset" : 0, 
"end offset" : 5, 
"type" : "<ALPHANUM>", 
"position" : 1 
}, 1{ 
"token" : "punishment", 
"start_offset" : 10, 
"end offset" : 20, 
"type" : "<ALPHANUM>", 
"position" : 3 
}1] 
} 


我 们 可 以 看 到 ，Elasticsearch 把 输入 短语 划分 为 两 个 标记 。 处 理 时 ,普通 词 and 被 省 略 ( 因为 
它 在 停 用 词 列 表 中 )， 而 其 他 单词 变 成 了 小 写 。 这 显示 了 在 分 析 过 程 中 到 底 会 发 生 什么 。 我 们 也 
可 以 提供 分 析 器 的 名 称 ， 例 如 ， 可 以 将 前 面 的 命令 修改 成 下 面 这 样 : 




















Curl -XGET '‘'localhost:9200/ analyze?analyzer=standard&pretty' -d 
'Crime and Punishment' 


上 述 命令 使 我 们 能 够 检查 标准 分 析 器 是 如 何 分 析 数 据 的 〈 会 跟 我 们 前 面 看 到 的 响应 有 点 
不 同 je 


值得 注意 的 是 ， 有 另 一 种 分 析 API 的 可 用 形式 : 我 们 能 够 提供 分 词 器 和 过 滤器 。 要 在 创建 目 
标 映 射 之 前 实验 一 下 配置 时 ， 它 非常 方便 。 调 用 的 示例 如 下 所 示 : 
Curl -XGET 


'lJocalhost:9200/library/_analyze?tokenizer=whitespaceg& 
filters=lowercase,kstem&pretty' -d 'John Smith' 


上 面 的 例子 使 用 了 一 个 分 析 器 ， 它 由 whitespace 分 词 器 和 两 个 过 滤器 ( lowercase 和 
kstem ) 组 成 。 


可 以 看 到 ， 分 析 API 可 以 非常 有 效 地 跟踪 映射 配置 中 的 错误 ， 对 解决 查询 和 搜索 相关 性 问题 
也 非常 有 用 。 它 可 以 告诉 我 们 分 析 咒 如 何 工 作 , 它们 生成 的 词 条 是 什么 , 这 些 词 条 的 属性 是 什么 。 
有 了 这 些 资料 ， 分 析 查 询问 题 会 更 容易 追踪 。 




















5.7.2 ”解释 查询 


除了 看 在 分 析 期 间 发 生 了 什么 ，Elasticsearch 让 我 们 可 以 解释 特定 的 查询 和 文档 是 如 何 计算 
得 分 的 。 看 下 面 的 示例 : 





Curl -XGET 'localhost:9200/library/book/1/ _ explain?pretty&q=quiet' 
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上 面 的 命令 将 返回 如 下 的 响应 结果 : 


{ 
" index" : "library", 
"_ type" : "book", 
下 1dr & TL 
"matched" : true, 
"explanation" : { 
"value" : 0.057534903, 
"description" : "weight( all:quiet jin 0) [PerFieldsimilarity], 
result of:", 
"details" : [ { 
"value" : 0.057534903, 
"description" : "fieldWeight in 0, product of:", 
"details" : [ { 
"value" : 1.0, 
"description" : "tf(freq=1.0), with freq of:", 
"details" : [ { 
"value" : 1.0, 
"description" : "termFreq=1.0" 
}] 
}, { 
"value" : 0.30685282, 
"description" : "idf(docFreq=1, maxDocs=1)" 
}, 1{ 
"value" : 0.1875, 
"description" : "fieldNorm(doc=0)" 
}] 
}] 
} 
} 





看 起 来 很 复杂 ， 好 吧 ， 确 实 很 复杂 ! 更 糟糕 的 是 ， 这 只 是 一 个 简单 的 查询 ! Elasticsearch ， 
更 确切 地 说 ,是 Lucene 库 ,会 显示 关于 评分 过 程 的 内 部 信息 。 我 们 只 晴 虹 点 水 地 解释 一 下 上 述 响 














应 中 最 重要 的 东西 。 











最 重要 的 部 分 是 为 文档 计算 的 总 分 ( explanation 对 象 的 value 属 性 )。 如 果 等 于 0， 说 明 
文档 与 给 定 查 询 不 匹配 。 另 一 个 重要 的 元 素 是 aescription 部 分 ， 告 诉 我 们 采用 了 哪 种 相似 度 
模型 。 在 我 们 的 示例 中 ,查询 auiet 词 条 , 在 _al1 字 段 被 找到 。 这 很 直观 ， 因 为 我 们 在 默认 字段 















































中 搜索 ， 就 是 _al1 (参见 2.4 节 )。 





details 部 分 提供 了 有 关 组 件 的 信息 ,以 及 我 们 应 在 哪里 寻求 解释 : 为 什么 我 们 的 文档 与 查 





询 匹 配 。 说 到 评分 , 我们 有 一 个 对 象 : 单一 的 负责 文档 得 分 计算 的 组 件 。value 




















辕 性 是 由 此 组 件 


计算 的 得 分 ,然后 再 次 看 到 description 和 detail 节 点 ,正如 你 在 description 字 段 中 看 到 的 ， 
最 后 的 得 分 (fieldweight in 0, product of ) 是 内 部 details 数 组 中 的 每 个 元 素 所 计算 得 


分 的 组 成 值 (1.0 * 0.30685282 * 0.1875 )。 








在 内 部 的 details 数 组 里 , 我 们 可 以 看 到 3 个 对 象 。 第 一 个 显示 了 给 定 字 段 上 的 词 频 信 息 ( 在 
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我 们 的 例子 中 是 1 ), 这 意味 着 字段 上 只 出 现 一 次 搜索 词 条 。 第 二 个 对 象 显示 了 道 文档 频率 。 注意 
maxDocs 属 性 , 它 等 于 1 , 意味 着 给 定 词 条 只 找到 了 1 个 文档 。 第 三 个 对 象 负责 字段 的 field norm。 


请 注意 ， 每 个 查询 的 上 述 响应 是 不 同 的 。 而 且 ， 查 询 越 复杂 ， 返 回信 息 也 会 越 复杂 。 


























5.8 小 结 


本 章 介绍 了 Apache Lucene 评 分 在 内 部 如 何 工作 ， 如 何 使 用 Elasticsearch 的 脚本 功能 ， 以 及 如 
何 索 引 和 搜索 不 同 语言 的 文档 。 我 们 使 用 了 不 同 的 查询 来 改变 文档 的 得 分 , 并 且 修 改 查询 来 让 它 
适合 我 们 的 用 例 。 学 到 了 索引 时 的 加 权 , 什么 是 同义词 ， 以 及 它们 如 何 帮 助 我 们 。 最 后 ,学 习 了 
如 何 检 查 为 什么 特定 的 文档 是 结果 集 的 一 部 分 ， 以 及 得 分 是 如 何 计算 的 。 


下 一 章 将 介绍 全 文 搜索 之 外 的 内 容 。 看 看 聚合 是 什么 ， 以 及 如 何 使 用 它们 来 分 析 数 据 。 我 们 
也 会 看 到 切面 , 它 能 够 聚合 数据 并 为 其 带 来 意义 。 使 用 建议 需 执 行 拼写 检查 和 自动 完成 ,采用 前 
脆性 搜索 找到 匹配 特定 查询 的 文档 。 索 引 二 进 制 文档 , 并 使 用 地 理 空间 功能 , 使 用 地 理 数据 搜索 。 
最 后 ,我 们 将 使 用 卷 动 API 有 效 获取 大 量 结果 ， 还 会 看 到 如 何 让 Elasticsearch 在 查询 中 使 用 词 条 列 
表 (一 个 自动 加 载 的 列表 )。 
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上 一 章 介 绍 了 Apache Lucene 评 分 机 制 的 内 部 工作 原理 ; 展示 了 Elasticsearch 的 脚本 功能 ， 在 
不 同 的 语言 中 索引 和 搜索 文档 , 使 用 不 同 的 查询 来 改变 文档 的 得 分 ; 使 用 了 索引 时 加 权 ; 学 习 了 
什么 是 同义词 , 最 后 , 我 们 看 到 了 检查 为 什么 特定 的 文档 是 结果 集 的 一 部 分 , 它 的 得 分 如 何 计算 。 
本 章 主 要 内 容 如 下 : 


口 使 用 聚合 来 聚合 索引 数据 ， 并 从 中 计算 有 用 的 信息 ; 

口 采用 切面 来 计算 不 同 的 统计 数据 ; 

口 使 用 Elasticsearch 建 议 器 实现 拼写 检查 和 自动 完成 功能 ; 
口 使 用 预 搜索 来 匹配 文档 ; 

口 索引 二 进 制 文件 ; 

口 索引 和 搜索 地 理 数 据 ; 

口 高 效 获取 大 数据 集 ; 

口 自动 加 载 并 在 查询 中 使 用 词 条 。 




















Elasticsearch 1.0 带 来 了 改进 和 新 功能 , 更 包括 备 受 期 待 的 框架 , 它 赋 予 Elasticsearch 一 个 新 定 
位 : 全 功能 分 析 引 擎 。 现 在 ， 你 可 以 使 用 Elasticsearch 作 为 各 种 系统 的 一 个 关键 部 分 ， 处 理 大 量 
的 数据 ， 提 取 结 论 ， 并 将 这 些 数据 可 视 化 为 可 读 的 方式 。 我 们 看 看 如 何 使 用 这 些 功能 ， 以 及 可 以 
用 它们 做 些 什么 。 





6.1.1 一 般 查询 结构 


为 了 使 用 聚合 ( aggregation )， 需 要 在 查询 中 增加 一 个 额外 节点 。 一 般 来 说 ， 使 用 聚合 的 查 
询 看 上 去 像 下 面 的 代码 片段 : 
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aggs 属 性 (你 可 以 使 用 aggregations 属 性 ，aggs 只 是 个 缩写 )， 可 以 定义 任意 数量 的 聚合 。 
然而 要 记 住 一 件 事 ， 键 值 定 义 了 聚合 的 名 称 〈 需要 它 来 区 分 服务 器 响应 中 的 特定 聚合 )。 我 们 使 
用 1ibrary 索 引 ， 创 建 第 一 个 使 用 聚合 的 查询 。 发 送 如 下 查询 命令 : 








Curl 'localhost:9200/_ search? Search type=count & pretty' -d '{ 
"aggs": { 
"years": { 
"stats": { 
"field": "year" 
} 
}» 
"words": { 
"terms": { 
"field": "copies" 
} 
} 
} 
jE 


此 查询 定义 了 两 个 聚合 。 名 为 years 的 聚合 显示 yeazr 字 段 的 统计 信息 ，woras 聚 合 包含 给 定 
字段 中 所 使 用 词 条 的 信息 。 








示例 中 ， 我 们 假定 在 搜索 的 同时 聚合 。 如 果 不 需要 搜索 到 的 文档 ， 用 
search_type=count 参 数 会 更 好 ， 这 将 省 略 一 些 不 必要 的 工作 ， 因 此 更 高 效 。 
一 在 那 种 情况 下 ， 端 点 应 为 /library/_search?search_type=count。3.2 节 介 
绍 了 更 多 关于 搜索 类 型 的 内 容 。 


现在 来 看 看 Elasticsearch 为 上 述 查 询 返 回 的 响应 : 


{ 
"took": 2, 
"timed out": false, 
"_ shards": { 
"total": 5, 
"successful": 5, 
"failed": 0 
}> 
"hits": { 
"total": 4, 
"max score": 0, 
"hits": [] 
}s 
"aggregations": { 
"words": { 
"buckets": [ 
{ 
"key": 0, 
"doc_ count": 2 
}» 
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{ 
"key": 1, 
"doc count": 1 


"key" : 6， 
"doc count": 1 


min 1886 
max 1961 
avg 1928 
sum 7712 


} 
} 


你 可 以 看 到 ， 两 个 聚合 都 被 返回 。 查 询 中 定义 的 第 一 个 聚合 (years ) 返回 了 给 定 字段 的 一 
般 统 计 ， 它 是 从 所 有 匹配 查询 的 文档 中 搜集 而 来 的 。 第 二 个 聚合 (woras ) 有 点 不 同 ， 它 创建 了 
名 为 buckets 的 集合 ， 基 于 返回 文档 计算 而 来 ， 每 个 聚合 值 都 出 现在 集合 里 。 可 以 看 到 ， 有 多 种 
聚合 类 型 ， 每 种 都 返回 不 同 的 结果 。 本 节 后 面 会 展示 这 些 区 别 。 








6.1.2 可 用 的 聚合 


看 过 前 面 的 例子 之 后 ， 你 不 应 该 对 聚合 分 成 几 组 感到 惊讶 。 目 前 ， 有 两 组 聚合 : 度量 聚合 
( metric aggregation ) 和 桶 聚合 (bucketing aggregation )。 


1. 度量 聚合 
度量 聚合 接收 一 个 输入 文档 集 并 生成 至 少 一 个 统计 值 。 你 将 看 到 , 这些 聚 合 大 多 是 自 解释 的 。 
(1)min、max、sum、avg 聚 合 


min、 max、 sum 和 avg 聚 合 的 使 用 很 相似 。 它们 对 于 给 定 字段 分 别 返回 最 小 值 、 最 大 值 、 总 
和 和 平均 值 。 任 何 数值 型 字段 都 可 以 作为 这 些 值 的 源 。 比 如 ， 为 了 计算 yeazr 字 段 的 最 小 值 ， 可 
以 构建 如 下 聚合 : 


{ 
"aggs": { 
"min year": { 
min 
"field": "year" 
} 
} 
} 
} 








图 灵 社 区 会 员 打 顺 顺 (lvshun@live.cn) 专 享 尊重 版 权 








返回 值 类 似 于 如 下 : 


"min year": { 
"value": 1886 
} 


(2) 使 用 脚本 


输入 值 也 可 以 由 脚本 生成 。 如 果 想 找到 yeazr 字 段 所 有 值 的 最 小 值 ， 且 要 从 这 些 值 中 减 去 
1000， 我 们 将 发 送 如 下 聚合 : 


{ 
"aggs": { 
"min year": { 
"mi 
"script": "doc['year'] .value - 1000" 





} 
} 
} 


在 本 例 中 ， 聚 合 使 用 的 值 是 原始 yeaz 字 段 值 减 去 1000。 可 以 用 另外 一 个 写法 来 得 到 相同 的 
响应 : 提供 script 属 性 和 字段 和 名， 如 下 所 示 : 


{ 





"aggs": { 
"min year": { 
wi 
"field": "year", 
"script": "value - 1000" 
} 


} 
} 
} 


在 script 属 性 以 外 提供 了 字段 名 ， 可 以 写 得 更 详细 ， 如 下 所 示 : 











{ 


"aggs": { 
"min year": { 
"minm"s { 
"field": "year", 
"script": "value - mod", 
"params": { 
"mod™ -31000 
} 
} 
} 
} 


} 
可 以 看 到 , 我 们 添加 了 params 节 点 作为 附加 参数 。 可 以 在 5.2 节 中 阅读 更 多 关于 脚本 的 内 容 。 
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(3) value_count 聚 合 


value_count 聚 合 跟前 面 描述 的 聚合 类 似 , 只 是 输入 字段 不 一 定 要 是 数值 型 的 。 该 聚合 的 一 
个 例子 如 下 所 示 : 


€ 
"aggs": { 
"number_of_items": { 
"value_ count": { 
"field": "characters" 
} 
} 
} 
} 


我 们 暂停 一 会 。 这 是 个 很 好 的 机 会 ， 来 看 看 这 个 例子 中 Elasticsearch 聚 合计 算 了 哪个 值 。 在 
1ibrary 索 引 的 books 类 型 上 执行 上 述 查 询 ， 响 应 将 如 下 所 示 
































"number of items": { 
"value": 31 
} 


Elasticsearch 从 所 有 文档 的 characters 字 段 计算 所 有 标记 。 这 个 数字 是 有 意义 的 ,比如 ,Sofia 
Semyonovna Marmeladova 这 个 词 条 在 分 析 之 后 将 变 成 sofia 、semyonovna 和 marmeladova。 在 很 多 
情况 下 ， 我 们 不 想 要 这 个 行为 。 为 此 ， 应 该 使 用 characters 字 段 的 未 经 分 析 版 本 。 





(4) stats 和 extended_stats 聚 合 


stats 和 extended_stats 聚合 可 以 看 成 是 在 单一 聚合 对 象 中 返回 所 有 前 面 描述 聚合 的 一 
种 聚合 。 如 果 想 计算 year 字 段 的 统计 ， 可 以 使 用 如 下 代码 : 


{ 





"aggs": { 
"stats year": 4 
"stats": { 
"field": "year" 


} 
} 
} 
} 


Elasticsearch 返 回 的 相关 结果 将 如 下 所 示 : 





"stats year": { 
"count": 4, 
"min": 1886, 
"max": 1961, 
"avg": 1928, 
"sum": 7712 
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当然 ，extendeaq_stats 聚 合 返 回 的 统计 数据 包含 更 多 扩展 信息 。 看 看 下 面 的 查询 : 





{ 


"aggs": { 
"stats_year": { 
"extended_stats": { 
"field": "year" 


} 
} 
} 
} 


在 返回 的 响应 中 ， 可 以 看 到 如 下 输出 : 


"stats year": { 

"count": 4, 

"min": 1886, 

"max": 1961, 

"avg": 1928, 

"sum": 7712, 

"sum of squares": 14871654, 

"variance": 729.5, 

"std deviation": 27.00925767213901 
} 


可 以 看 到 ,除了 已 知 的 值 ， 我 们 还 得 到 平方 和 、 方 差 和 标准 差 统计 。 

2. 桶 聚合 

桶 聚合 返回 很 多 子 集 , 并 限定 输入 数据 到 一 个 特殊 的 叫做 桶 的 子 集 中 。 可 以 把 桶 聚合 想象 成 
类 似 前 面 切面 功能 的 东西 ，6.2 节 有 介绍 。 然 而 ， 这 个 聚合 更 强大 、 更 易于 使 用 。 我 们 来 简单 介 
绍 一 遍 可 用 的 桶 聚合 。 

(1) terms 聚 合 

terms 聚 合 为 字段 中 每 个 词 条 返回 一 个 桶 。 这 人 允许 你 生成 字段 每 个 值 的 统计 。 例 如 ， 通 过 这 
个 聚合 ， 可 以 回答 以 下 问题 。 


口 每 年 出 版 多 少 书 ? 
口 多 少 书 可 以 用 来 出 借 ? 
口 我 们 最 多 的 书 有 多 少 册 ? 


对 上 面 最 后 一 个 问题 ， 可 以 发 送 如 下 查询 : 


{ 





"aggs": { 
"availability": { 
"terms": { 
"field": "copies" 
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} 
} 
} 
} 


Elasticsearch 对 1ibrary 索 引 的 响应 如 下 所 示 : 


"availability": { 
"buckets": [ 
{ 
"key": 0， 
"doc_ count": 2 


"key" : Ls 
"doc count": 1 


"key" : 6， 
"doc_count'" : 1 


] 
} 


我 们 看 到 两 本 书 只 有 一 本 ( key 属性 等 于 0 的 桶 ),， 一 本 书 有 另外 一 本 ( key 属 性 等 于 1 的 桶 )， 
一 本 书 有 另外 6 本 ( key 属性 等 于 6 的 桶 )。 默认 情况 下 ，Elasticsearch 返 回 的 桶 按照 aoc_count 的 
值 倒 序 排序 。 我 们 可 以 通过 添加 ordqaez 属 性 来 改变 。 比 如 ， 为 了 使 用 key 属 性 值 对 聚合 排序 ， 可 
以 发 送 以 下 查询 : 


{ 





























"aggs": { 
"availability": { 
"terms": { 
"field": "copies", 


"size"s 40 
"order": { " term": "asc" } 
} 
} 
} 
} 


可 以 按 升序 排 (asc )， 也 可 以 按 降 序 排 (aesc )。 在 我 们 的 例子 中 ,使 用 key 属 性 ( _team ) 
排序 。 男 一 个 选择 是 _count， 告 诉 Elasticsearch 使 用 doc_count 属 性 来 排序 。 


前 面 的 例子 中 ， 我 们 还 添加 了 size 属 性 。 你 可 以 猜 到 它 定 义 了 最 多 返回 多 少 个 桶 。 


























你 应 该 记得 , 当 字 段 被 分 析 时 , 会 从 如 例子 所 示 的 分 析 词 条 中 得 到 桶 和 计数 
KW 值 。 这 可 能 不 是 你 想 要 的 答案 ， 解 决 办 法 就 是 在 索引 中 为 字段 添加 一 个 额外 的 、 
未 经 分 析 的 版 本 ， 并 使 用 它 来 做 聚合 计算 。 
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(2) range 聚 合 


zange 聚 合 使 用 定义 的 范围 来 创建 桶 。 如 果 我 们 想 检 查 给 定时 间 区 间 有 多 少 书 出 版 ， 可 以 创 
建 如 下 查询 : 











{ 
"aggs": { 
"years": { 
"range": { 
"field": "year", 
"ranges": |[ 
{ "EO" 2 250 3 
{ From 8951 vbovs 4900 3} 
{ rom 190 "to L950 3; 
{ms L951 "tors 0U00 + 
{ "Fonm: A001 } 
] 
} 
} 
} 
} 


对 1ibrary 索 引 中 的 数据 ， 响 应 将 如 下 所 示 : 


"years": { 
"buckets": [ 





{ 
"to": 1850, 
"doc count": 0 
}, 
{ 
"from": 1851, 
"to": 1900, 
"doc_ count": 1 
7 
{ 
"from": 1901, 
"to": 1950, 
"doc_ count": 2 
}y 
{ 
"from": 1951, 
"to": 2000, 
"doc count": 1 
小 
{ 
"from": 2001, 
"doc_ count": 0 
} 
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从 上 面 的 输出 可 以 看 出 ，1901~1950 年 ， 我 们 出 版 了 2 本 书 。 


创建 用 户 界面 时 ， 可 以 为 每 个 桶 自动 生成 一 个 标签 。 打 开 此 功能 很 简单 :只 需要 添加 keyed 
属性 并 将 其 设置 为 true, 就 像 下 面 的 示例 : 





€ 
"aggs": { 
"years": { 
"range": { 
"field": “year™; 
"keyed": true, 
"ranges": [ 
Eo Ma e137 0 
Ef "Erom"s 182851; "to 1900 }; 
€ Erom"s 1901,. "to 1950 }, 
"Erom"s 951, “tos a000 }, 
-Om 00L 3 
] 
} 
} 
} 
} 


上 述 代码 中 突出 显示 的 部 分 ,使 结果 中 包含 标签 ， 在 Elasticsearch 的 以 下 响应 中 可 以 看 到 : 


"years": { 
"buckets": { 

"*-1850.0": { 
Eos -L850'; 
"doc_ count": 0 

} 

"1851.0-1900.0": { 
"From"s 1851.; 
"EO /L900 
"docL count"s 1 

} 

"1901.0-1950.0": { 
人 
人 9505 
iceount' 3 2 

} 

"1951.0-2000.0": { 
te 
"Eas, ZO000; 

"doc .count"s 1 

}, 

"2001.0-*": { 
"from i dOU0L; 
“doc _ count";: 0 
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你 可 能 已 经 注意 到 , 结构 略 有 变化 , buckets 字 段 不 再 是 表 , 而 是 图 , 键 值 是 从 范围 生成 的 。 














这 行 得 通 ， J 我 们 的 例子 中 ,给 每 个 桶 一 个 名 称 会 更 有 用 。 这 是 可 能 的 , 我 们 可 以 为 
每 个 范围 添加 key 属 性 并 把 它 的 值 设 置 为 所 需 的 名 称 。 思 考 以 下 示例 : 
{ 
"aggs": { 
"years": { 
"range": { 

"field": "year", 

"keyed": true, 

"ranges": [ 

{ "key": "Before 18th century", "to": 1799 }, 


{ "key"s "LIoth Century"; "from": L800 “to L899 },; 
{ "key"i TLIOth century"; “Erom™: L900 te™ L999 }, 
{ "key": "After 19th century", "from": 2000 } 


一 点 很 重要 也 很 有 用 ， 范 围 可 以 不 登 加 。 在 这 种 情况 下 ，Elasticsearch 将 
人 


(3) date_range 聚 合 


date_range 聚 合 类 似 于 前 面 讨论 的 *ange 聚 集 ， 但 它 专用 在 使 用 日 期 类 型 的 字段 。 虽 然 
library 索 引文 档 中 有 yeaz 字 段 ， 但 这 个 字段 是 一 个 数字 ， 不 是 日 期 。 为 了 测试 ， 假 设 我 们 
望 扩 展 图 书馆 索引 来 支持 报纸 ， 使 用 以 下 命令 创建 一 个 新 的 Library2 索 引 : 


Curl -XPOST localhost:9200/ bulk --data-binary '{ "index": {" index": 
"library2", " type": "book", "_ id": "1"}} 

{ "title": "Fishing news", "published": "2010/12/03 10:00:00", 
"copies": 3, "available": true } 

{ "index": {" index": "library2", " type": "book", " id": "2"}} 

{ "title": "Knitting magazine", "published": "2010/11/07 11:32:00", 
"copies": 1, "available": true } 

{ "index": {" index": "library2", " type": "book", " id": "3"}} 

{ "title": "The guardian", "published": "2009/07/13 04:33:00", 
"copies": 0, "available": false } 

{ "index": {" index": "library2", " type": "book", " id": "4"}} 

{ "title": "Hadoop World", "published": "2012/01/01 04:00:00", 
"copies": 6, "available": true } 




















好 














在 这 个 索引 中 ， 没 有 使 用 映射 作为 Elasticsearch 发 现 机 制 ， 这 对 我 们 的 例子 来 说 足够 了 。 我 
们 开始 第 一 个 使 用 aate_rage 聚 合 的 查询 ， 如 下 所 示 : 


{ 
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"aggs": { 
"years": { 
"date_ range": { 
"field": "published", 
"ranges": [ 
人 EOS T2009/12/31” 3 
t "from. "D0LO0rAOL/AOL ' "EOS "a0LO0/L2/3L" 3 
{ VELOMYS, ZO0LL/AOL/OL™ 
] 

















与 普通 的 range 聚 合 比 较 ， 唯 一 改变 的 是 聚合 类 型 ( gate_range )。 可 以 用 Elasticsearch 认 
可 的 字符 串 格式 传递 日 期 (更 多 信息 请 参阅 第 2 章 )， 或 者 用 数值 : 自 1970-01-01 以 来 的 毫秒 数 。 
Elasticsearch 返 回 的 响应 如 下 : 











"years": { 
"buckets": [ 
{ 
"to": 1262217600000, 
"to as_ string": "2009/12/31 00:00:00", 
"doc count": 1 


"from": 1262304000000, 

"from as_string": "2010/01/01 00:00:00", 
"to": 1293753600000, 

"to as_ string": "2010/12/31 00:00:00", 
"doc_ count": 2 


"from": 1293840000000, 
"from as_string": "2011/01/01 00:00:00", 
"doc count": 1 
} 
] 
} 


上 述 响 应 与 之 前 *ange 聚 合 的 响应 相 比 ， 唯 一 的 区 别 是 ， 关 于 范围 边界 的 信息 分 为 了 两 个 属 
性 。fzom 或 to 属性 表示 自 1970-01-01 以 来 的 毫秒 数 。from_as_string 和 to_as_string 属 性 以 
人 类 可 读 的 形式 表示 日 期 。 当 然 ，date_range 聚 合 中 定义 的 keved 和 kev 属 性 照常 工作 。 


Elasticsearch 也 人 允许 使 用 format 属 性 来 定义 日 期 格式 。 在 我 们 的 示例 中 ， 以 年 的 形式 表达 日 
期 所 以 天 数 和 时 间 是 没有 必要 的 。 如 果 想 显示 月 份 名 称 ， 可 以 发 送 如 下 查询 : 


{ 
"aggs": { 
"paares"s 并 
"date_ range": { 
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"field": "published", 

"format": "MMMM YYYY", 

"ranges": [ 
{Eo 3 T200907L2Y3LY 3 
{ Erom AOLONOL7OL; EO: “20L07/L273L }; 
{ "FEOm :20LL/OL/AOL. 寺 

] 

} 
} 
} 
} 


返回 的 范围 之 一 看 上 去 如 下 所 示 : 


{ 
"from": 1262304000000, 
"from as_string": "January 2010", 
"to": 1293753600000, 
"to as_ string": "December 2010", 
"doc_ count": 2 

} 


看 上 去 好 多 了 ， 对 吧 ? 


format 参 数 中 可 以 使 用 的 格式 定义 在 Joda Time 库 中 ， 完 整 列 表 请 参阅 
一 http://joda-time.sourceforge.net/apidocs/org/joda/time/format/DateTimeFormat.html。 


关于 date_range 聚 合 ， 还 有 一 点 。 有 时 ， 我 们 会 想 要 建立 一 个 能 随时 间 变 化 的 聚合 ， 例 如 
想 看 到 每 个 季度 出 版 了 多 少 报纸 。 不 修改 查询 也 可 以 做 到 ,请 思考 以 下 示例 : 


{ 
"aggs"s 1 
"years": { 
"date_ range": { 
"field": "published", 




















"format": "dd-MM-YYYY", 
"ranges": [ 
{ "to" : "now-9M/M" }, 
{ "to" : "now-9M" }, 
{ "from": "now-6M/M", "to": "now-9M/M" }, 
{ "from": "now-3M/M" } 


这 里 的 关键 是 如 now-9M 的 表达 式 。Elasticsearch 使 用 数学 生成 相应 的 值 。 你 可 以 使 用 y (年 )、 
M (月 ) w ( 周 )、d (日 )、h (小 时 )、m (分 钟 ) 和 s ( 秒 )。 例 如， 表达 式 now+3d 表 示 现 在 起 
的 3 天 后 。 在 我 们 的 示例 中 ，/M 表 示 只 取 已 被 转 成 月 份 的 日 期 。 由 于 这 种 表示 法 ， 我 们 可 以 只 计 
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算 完整 月 。 第 二 个 优点 是 计算 的 日 期 对 缓存 更 友好 ， 如 果 没 有 四 售 五 人 ， 日 期 每 一 毫秒 都 更 改 ， 
导致 居于 range 的 每 个 缓存 都 没有 意义 。 


(4) IPv4 range 聚 合 


range 肾 合 的 最 后 一 个 形式 是 基于 互联 网 地 址 的 聚合 。 它 工作 在 定义 成 ip 类 型 的 字段 上 ， 允 
许 以 CIDR 的 格式 来 定义 Px 范围 ( CIDR : http:/en.wikipedia.org/wikiClassless_Inter-Domain 
Routing )。ip_range 聚 合 的 示例 如 下 所 示 : 


{ 
"aggs": { 
"access": { 
"ip_range": { 
"Field™: "iD; 
"ranges": [ 
{ "EEO TE92,.168 ,0.1 "EO 192.16850254". 3 
{ "mask": "192.168.1.0/24" } 
] 
} 








} 
} 
} 


上 述 查 询 的 响应 如 下 所 示 : 


"access": { 
"buckets": [ 
{ 
"from": 3232235521, 
"from as_ string": "192.168.0.1", 
"to": 3232235774, 
"to as _ string": "192.168.0.254", 
"doc count": 0 


"key": "192.168.1.0/24", 
"from": 3232235776, 
"from as_string": "192.168.1.0", 
"to": 3232236032, 
"to as _ string": "192.168.2.0", 
"doc_ count": 4 
} 
] 
} 


同样 ， keyed 和 key 属 性 跟 range 聚 合 中 一 样 。 
(5) missing 聚 合 


回 到 1ibrary 索 引 ， 看 看 多 少 条 目 没有 定义 原始 标题 (otitle 字 段 )。 为 此 ， 我 们 使 用 
missing 聚 合 ， 在 这 种 情况 下 它 是 个 好 东西 。 示 例 查 询 如 下 所 示 : 
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"aggs" : { 
"missing original title": { 
"missing": { 


"field": "otitle" 
} 
} 
} 
} 


响应 中 相关 部 分 如 下 所 示 : 


"missing original title": { 
"doc_ count": 2 
} 
说 明 我 们 有 2 个 文档 没有 otitle 字 有 段 。 
missing 聚 合 提 示 映 射 定义 可 能 定义 了 null_value， 需 要 独立 于 这 个 定义 
一 。 来 对 文档 计数 。 


(6) nested 聚 合 


4.3 节 介绍 了 风 套 文档 。 使 用 这 个 数据 来 看 看 下 一 种 聚合 类 型 nested 聚 合 。 我 们 来 创建 一 
个 最 简单 的 可 工作 查询 ， 如 下 所 示 : 


{ 





"aggs": { 
"variationes™s { 
"nested": { 
"path": "variation" 


} 
于 
} 
} 


上 面 的 查询 在 结构 上 类 似 于 任何 其 他 聚合 。 它 包含 参数 path， 指 向 垦 套 的 文件 。 在 响应 中 ， EY 
我 们 得 到 一 个 数字 ， 如 以 下 输出 所 示 : 
"variations": { 


"doc_ count": 2 
} 





述 响 应 意味 着 索引 中 有 两 个 能 套 文 档 使 用 提供 的 variation 类 型 。 
(7) histogram 聚 合 
histogram 聚 合 定义 桶 。 使 用 该 聚合 的 最 简单 查询 如 下 所 示 : 


{ 
raggs": { 
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"years": { 
"histogram": { 
"field" : "year", 
"interval": 100 
} 
} 
} 
} 




















这 里 ， 新 的 信息 片段 是 interval， 它 定义 了 将 用 于 创建 桶 的 每 个 范围 的 长 度 。 因 此 ， 在 我 
们 的 示例 中 ， 桶 将 以 100 年 为 周期 来 创建 。 把 上 面 查询 发 送 到 我 们 的 1ibrary 索 引 ， 响 应 中 聚合 
部 分 如 下 所 示 : 


"years": { 
"buckets": [ 
{ 
"key": 1800, 
"doc_ count": 1 
}, 
{ 
"key": 1900, 
"doc_count": 3 
} 
] 
} 








与 range 聚 合 一 样 ，histogram 聚 合同 样 允 许 我 们 使 用 keyeq 属 性 。 其 他 可 用 的 选项 是 


min_doc_count, 使 我 们 能 够 控制 为 创建 一 个 桶 需要 的 最 小 文档 数 上 日 。 如 果 把 min_doc_count 
属性 设置 为 零 ，Elasticsearch 还 将 包括 文档 数目 为 0 的 桶 。 

















(8) date_histogram 聚 合 


正如 aate_range 聚 合 是 range 聚 合 的 一 种 特殊 形式 ， aqate_histogram 聚 合 也 是 histogram 
聚合 的 一 种 扩展 ， 专 用 在 日 期 上 。 所 以 我 们 再 次 使 用 有 报纸 的 索引 ( 名 字 为 1ibrary2 )。 使 用 
date_histogram 聚 合 的 查询 示例 如 下 所 示 : 

{ 











"aggs": { 
"years": { 
"date histogram": { 
"field" : "published", 
"format" : "yyyy-MM-dd HH:mm", 
"interval": "10d" 


} 
} 
} 
} 


可 以 看 到 interval 属 性 上 一 个 重要 的 区 别 。 它 现在 用 一 个 字符 串 来 描述 时 间 间 隔 ， 在 我 们 
的 例子 中 是 10 天 。 当 然 ， 可 以 将 它 设置 为 任何 值 ， 使 用 与 在 daate_range 聚 合 中 讨论 过 的 格式 相 
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同 的 后 级。 值得 一 提 的 是 ， 数 字 可 以 是 一 个 浮 点 值 ， 例 如 1.5m， 即 每 1.5 分 钟 。format 属 性 跟 
date_range 聚 合 中 一 样 ,归功 于 此 , Elasticsearch 可 以 根据 定义 的 格式 添加 一 个 人 类 可 读 的 日 期 。 
当然 ，format 属 性 不 是 必需 的 ， 但 它 是 有 用 的 。 除 此 以 外 ， 类 似 于 range 聚 合 ，keyeda 和 
min_doc_count 属 性 仍然 有 效 。 


(9) 时 区 


Elasticsearch 将 所 有 日 期 存储 成 UTC 时 区 。 你 可 以 定义 用 于 显示 的 时 区 。 日 期 转换 有 两 种 方法 ， 
可 以 在 把 元 素 分 配给 桶 之 前 转换 日 期 ， 也 可 以 在 分 配 之 后 转换 。 因 此 ， 取 决 于 所 选 方法 和 桶 的 定 
义 ， 一 个 元 素 可 能 分 配给 不 同 的 桶 。 有 两 个 属性 定义 此 行为 : pre_zone 和 post_zone。 此 外 ， 
还 有 一 个 time_zone， 基 本 上 用 来 设置 pre_zone 属 性 的 值 。 有 如 下 三 种 符号 来 设置 这 些 属性 。 


口 可 以 设置 小 时 偏 移 ， 例如 :pre_zone:-4 或 time zone:5; 
口 可 以 使 用 时 间 格 式 , 例如 :pre_zone:"-4:30"; 
口 可 以 使 用 时 区 的 名 字 ， 例 如 : time_zone:"Europe/Warsaw'"。 























| http://joda-time.sourceforge.net/timezones.html 可 以 看 到 所 有 可 用 的 时 区 。 | 


(10) geo_distance 聚 合 

下 来 的 两 个 聚合 与 地 图 和 空间 搜索 有 关 。 本 章 后 面部 分 会 谈 到 地 理 类 型 和 查询 , 所 以 现在 可 
以 跳 过 这 两 个 主题 ， 稍 后 再 回来 看 。 

看 看 下 面 的 查询 : 


{ 
n aggs " { 
"neighborhood": { 
"geo_distance": { 




















"field": "location™, 
“OEiginiv: [sO0sL275, S1507222].; 
"ranges": |[ 


{ "to, L200 }; 
{mn 
] 
} 
} 
} 
} 


你 可 以 看 到 ， 这 类 似 于 range 聚 合 查 询 ， 计算 有 和 多少 个 城市 分 别 落 在 两 个 桶 内 : 第 一 个 桶 是 
在 1200 公 里 内 的 城市 ， 第 二 个 桶 是 1200 公 里 以 外 的 城市 (在 我 们 的 例子 中 ， 起 源 是 伦敦 )。 
Elasticsearch 返 回 的 响应 中 ， 聚 合 部 分 看 起 来 如 下 : 
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"neighborhood": { 
"buckets": [ 
{ 
"key": "*-1200.0", 
"from": 0, 
"to": 1200, 
"doc_ count": 1 
Fs 
{ 
"key": "1201.0-*", 
"from": 1201, 
"doc_ count": 4 
} 
] 
} 


当然 ， 在 geo_dqistance 聚 合 中 ，keyedq 和 key 属 性 仍然 有 效 。 
现在 ， 修 改 上 述 查 询 ， 展 现 geo_dqistance 聚 合 的 其 他 可 能 性 ， 如 下 所 示 : 


{ 
"aggs": { 
"neighborhood": { 
"geo_distance": { 
"field": "location", 
"origin™s { "lon": -0.1275, "lat": 51.507222}, 
"unit": "m", 
"distance type" : "plane", 
"ranges": [ 
€ "tevs L200 3; 








在 上 面 的 查询 我 们 高 亮 了 三 件 事 。 第 一 个 变化 是 关于 如 何 定义 原点 。 可 以 通过 多 种 形式 指 
位 置 ， 这 将 在 本 章 后 面 关于 地 理 类 型 中 更 准确 地 描述 。 


第 二 个 变化 是 unit 属 性 。 可 能 的 值 有 km ( 默认 )、mi、ip、yd、m、cm 和 mm， 它 们 定义 了 
数字 的 单位 (分别 是 公里 、 英 里 、 英 寸 、 人 码 、 米 、 厘 米 和 毫米 )。 

最 后 一 个 属性 distance_type， 指 定 了 Elasticsearch 如 何 计算 距离 。 从 最 快 但 精度 最 低 到 最 
慢 但 精度 最 高 ， 可 能 的 值 有 : plane、sloppy_arc ( 默认 值 ) 和 arc。 


(11) geohash_grid 有 聚合 


现在 你 知道 了 如 何 用 与 给 定点 的 距离 做 聚合 。 第 二 个 选择 是 把 区 域 组 织 成 一 个 网 格 , 并 分 配 
每 个 位 置 到 相应 的 单元 格 中 。 为 此 ， 理 想 的 方案 是 地 理 散 列 (Geohash ，http:/en.wikipedia. 
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org/wiki/Geohash )， 它 把 位 置 编码 成 一 个 字符 串 。 
字符 串 越 长 ， 对 特定 位 置 的 描述 越 精 确 。 比 如 ,一 个 字母 足以 描述 一 个 5000 x 5000 平 方 公里 
的 盒子 ， 而 五 个 字母 足够 描述 约 $ x 5 平方 公里 的 广场 。 让 我 们 看 看 下 面 的 查询 : 


{ 
"aggs": { 
"neighborhood": { 
"geohash grid": { 
vfieLld"; "Tooation”".; 
"precision": 5 
} 
} 
} 
} 


我 们 用 提 到 的 5 x 5 平方 公里 广场 的 精度 来 定义 geohash_grid 聚 合 , precision 属 性 描述 了 
用 在 geohash 字 符 串 对 象 中 的 字母 长 度 。 关 于 分 辨 率 与 geohash 长 度 的 表 , 可 以 在 这 个 网 址 找到 : 


http://www.elasticsearch.org/guide/en/elasticsearch/reference/master/search-aggregations-bucket-geoha 





shgrid-aggregation.html。 


当然 , 更 精确 通常 意味 着 对 系统 更 大 的 压力 ， 因 为 需要 更 多 的 桶 。 默认 情 况 下 ,Elasticsearch 
不 会 生成 一 万 个 以 上 的 桶 。 可 以 使 用 size 属 性 提高 此 参数 ， 但 事实 上 ， 你 应 该 尽 可 能 减少 它 。 





























6.1.3 ”聚合 的 藤 套 


这 是 一 个 强大 的 功能 ， 使 我 们 能 够 构建 复杂 的 查询 。 用 nesteq 聚 合 扩展 一 个 例子 。 在 使 用 
nested 聚 合 的 例子 中 ， 我 们 只 可 能 在 内 套 文档 中 工作 。 但 是 ， 看 看 下 面 的 示例 ， 就 知道 添加 
nested 聚 合 时 会 发 生 什 么 : 


{ 
"aygs "1{ 
"variations": { 
"nested": { 
"path": "variation" 














}s 
"aggs": { 
Vaiss 并 
"terms": { 
"field": "variation.size" 
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可 以 看 到 ， 我 们 添加 了 一 个 谍 套 的 聚合 ， 叫 做 sizes。 上 述 查 询 结果 的 聚合 部 分 如 下 所 示 : 








"variations": { 
"doc_count": 2, 
"sizes": { 

"buckets": [ 


{ 
wm key wm 3 XL wm 
"doc_ count": 1 
} [4 
mm key wm 和 mw XXL wm ¥ 
"doc_ count": 1 
} 


] 
} 
} 


完美 ! Elasticsearch 从 父 聚 合 中 取得 结果 , 并 对 其 使 用 cerms 聚 合 来 分 析 。 聚 合 甚 至 可 以 进 一 
步 对 套 ， 理 论 上 ， 可 以 无 限 肯 套 聚合 。 也 可 以 在 同一 级 别 上 有 更 多 的 聚合 。 


看 看 下 面 的 例子 : 
{ 
"aggs": { 
"years": { 
"range": { 
"field": “year™; 
"ranges": [ 


t EO L850 


€{ Erom"e T1851 "to™s L900 }, 
-Em .90L tone L950 +; 
4 "From"s T1951 "bo: 2000 3 
{ "from": 2001 } 
] 
} 
"aggs": { 
"Statistias Ys 
"stats": {} 


} 
} 
} 
} 
} 


你 可 能 会 看 到 前 面 的 示例 类 似 于 讨论 range 聚 合 时 用 到 的 一 个 例子 。 然 而 ， 现 在 我 们 添加 了 
一 个 额外 的 聚合 ， 给 每 个 桶 增加 了 统计 。 其 中 一 个 桶 的 输出 将 如 下 所 示 : 
{ 
"from": 1851, 


"to": 1900, 
"doc_ count": 1， 
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"statistics": { 
"count": 1, 
"min": 1886, 
"max": 1886, 
"avg": 1886, 
"sum": 1886 

} 

} 


注意 , 在 stats 聚 合 中 , 我 们 省 略 了 用 于 计算 统计 的 有 关 字 段 的 信息 。 Elasticsearch 足 够 聪明 ， 
可 以 从 上 下 文中 获得 此 信息 : 在 这 个 例子 中 ， 是 父 聚 合 。 





6.1.4” 桶 排序 和 衬 套 聚合 


让 我 们 回忆 terms 聚 合 和 排序 的 例子 。 我 们 说 到 ， 可 以 在 桶 的 键 值 或 者 文档 的 数量 上 排序 。 
这 只 是 部 分 正确 ，Elasticsearch 还 可 以 使 用 舱 套 聚合 里 的 值 ! 让 我 们 用 以 下 查询 示例 作为 开始 : 


{ 
"aggs": { 
navailabiLlity: A 
"terms": { 
"field": "copies", 
"order": { "numbers.avg": "desc" } 
js 
"aggs": { 
"numbers": { "stats" : {}} 
} 
} 
} 
} 


在 前 面 的 示例 中 ，availability 聚 合 的 顺序 基于 numbers 聚 合 的 平均 值 。 在 这 个 例子 中 ， 


numbers .avg 符 号 是 必需 的 ， 因 为 stats 聚 合 是 多 值 的 。 如 果 是 sum 聚 合 ， 只 要 聚合 的 名 称 就 足 
够 了 。 





6.1.5 ”全 局 和 子 集 


我 们 所 有 的 例子 都 有 一 个 共同 点 : 聚合 考虑 了 整个 索引 中 的 数据 。 聚合 框架 允许 我 们 操作 由 
查询 返回 的 过 滤 文 档 , 或 相反 , 完全 忽略 查询 。 你 还 可 以 混合 使 用 这 两 种 方法 。 来 分 析 以 下 示例 : 


{ 
"query": { 
"filtered": { 
"query": { 
mateln LL: AE} 
js; 
"filter": { 
"term": { 
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"available": "true" 
} 
} 
} 
5 
"aggs": { 
"with global": { 
tqlobal™e, {jy 


"aggs": { 
"oplies": { 
"value_count": { 
"field": "copies" 


中 
} 
} 
3 
"without_ global": { 
"value_count": { 
"field": "copies" 
} 
} 
} 
} 


第 一 个 节点 是 查询 。 在 这 个 例子 中 , 我 们 要 返回 目前 所 有 可 用 的 书 。 在 第 二 个 节点 ， 看 到 被 
命名 为 with_global 和 without_global 的 聚合 。 这 些 集合 是 相似 的 ， 都 使 用 value_count 对 
copies 字 段 聚合 。 不 同 的 是 ，with_global 聚 合 对 套 在 global 聚 合 中 。 这 是 一 种 新 的 东西 : 
glLobal 聚 合 创建 一 个 包含 当前 搜索 范围 中 的 所 有 文档 的 桶 (这 意味 着 我 们 用 于 搜索 的 所 有 索引 
和 类 型 )， 但 忽略 定义 的 查询 。 换 句 话 说，global 聚 合 了 所 有 文档 ， 而 without_global 会 使 聚 
合 只 在 由 查询 返回 的 文档 上 工作 。 


上 述 查 询 的 响应 中 ， 聚 合 节点 看 上 去 如 下 所 示 : 

















"aggregations": { 
"without global": { 
"value": 2 
Fs 
"with global": { 
"doc_count": 4, 
"copies": { 
"value": 4 
} 
} 
} 


在 我 们 的 索引 中 ， 我 们 有 两 个 文档 与 查询 匹配 (目前 可 用 的 书 )。without_global 对 这 些 
文档 做 聚合 ， 得 出 一 个 值 等 于 2。with_global 聚 合 忽略 搜索 操作 ， 操 作 于 索引 中 的 每 个 文档 ， 
意味 着 所 有 的 四 本 书 。 


现在 ， 证 我 们 看 看 如 何 建立 几 个 聚合 ,并且 让 其 中 一 个 对 文档 的 子 集 进行 操作 。 为 此 ， 可 以 
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在 聚合 中 使 用 过 滤器 , 这 将 创建 一 个 桶 , 其 中 包含 的 文档 被 给 定 的 过 滤器 减少 。 看 看 下 面 的 示例 : 


{ 
"aggs": { 
"with_ filter ( 
"filter": { 
"term": { 
"available": "true" 
} 
js 
"aggs": { 
"copies": { 
"value_count": { 
"field": "copies" 
} 
} 
} 
js 
"without_filter": { 
"value_count": { 
"field": "copies" 
} 
} 
} 
} 


我 们 没有 使 用 查询 来 缩小 传递 到 聚合 的 文档 数量 , 但 包括 了 一 个 过 滤器 用 来 减少 将 被 计算 聚 
合 的 文档 ,效果 跟 我 们 以 前 所 示 一 样 。 


包含 和 排除 


tezrms 聚 合 有 另 一 个 可 能 性 来 减少 聚合 数量 : 可 以 应 用 在 字符 串 值 上 的 include/exclude 功 能 ， 
看 看 下 面 的 查询 : 


{ 








"aggs": { 
"availability": { 
"terms": { 
"field": "characters", 
"exclude": "al.*", 
“inoelude ee as 


} 
} 
} 

} 

上 述 查 询 运 行 在 一 个 正则 表达 式 上 。 它 排除 了 所 有 以 al 开头 的 词 条 ， 但 包含 所 有 以 a 开 头 的 
词 条 。 这 样 一 个 查询 的 影响 是 ， 只 有 以 字母 a 开 头 的 词 条 才 会 被 计算 在 内 ， 不 包括 那些 第 二 个 字 
母 是 1 的 单词 。 正 则 表达 式 根据 JAVA API 定 义 ( http://docs.oracle.com/javase/7/docs/api/java/ 
uti/regex/Pattern.html )，Elasticsearch 同 样 允许 你 使 用 定义 在 这 个 规格 中 的 £1ags 属 性 。 
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6.2 切面 


Elasticsearch 是 全 文 搜索 引擎 ， 旨 在 对 查询 提供 搜索 结果 。 然 而 ， 有 时 我 们 想得到 更 多 ， 例 
如 根据 得 到 的 结果 集聚 合 的 数据 ， 价 格 100~200 美 元 之 间 的 文档 数目 ， 或 结果 文档 中 最 常用 的 标 
记 。6.1 节 介绍 了 聚合 框架 。 除 此 以 外 ，Elasticsearch 提 供 一 个 切面 模块 ， 负 责 提供 我 们 提 到 的 那 
些 功 能 。 本 章 将 讨论 Elasticsearch 提 供 的 不 同 切面 方法 。 



































注意 ， 切 面 提 供 了 聚合 模块 功能 的 一 个 子 集 。 正 因为 如 此 ，Elasticsearch 创 
作者 希望 所 有 用 户 从 切面 迁移 到 上 述 的 聚合 模块 ,切面 没有 废弃 ,你 还 可 以 使 用 ， 
但 要 小 心 将 来 它 可 能 从 Elasticsearch 中 移 除 。 


6.2.1 文档 结构 


为 了 讨论 切面 , 我 们 为 文档 使 用 一 个 非常 简单 的 索引 结构 。 它 将 包含 文档 的 标识 符 、 文 档 日 
期 、 一 个 用 于 描述 文档 的 多 值 字段 ( tags 字 段 )， 以 及 一 个 存 有 数值 信息 的 字段 ( total 字 段 )。 
我 们 的 映射 看 起 来 如 下 所 示 : 


{ 











"mappings" : { 
"doc™ 3» 1 
"properties" : { 

"id"™ 3 { "type" + “long"; “Store™ + yes }; 

"date" : { "type" : "date", "store" : "no" }, 

"tags" : { "type" : "string", "store" : "no", "index" : 

"not_analyzed" }, 
"total®" ss { "type™" :+ "long", "store" : "no™ } 


} 
} 
} 


} 
请 记 住 ,在 处 理 字符 串 字 段 时 ， 应 该 加 免 在 分 析 字 段 上 做 切面 操作 。 这 种 结 
果 可 能 不 是 人 类 可 读 的 ,尤其 是 在 使 用 词 干 提取 ,或 任何 其 他 重型 分 析 器 或 过 滤 
器 时 


6.2.2 ”返回 的 结果 


进入 如 何 执行 带 切 面 的 查询 之 前 ， 让 我 们 来 看 看 从 Elasticsearch 切 面 请 求 中 期 待 返回 的 结 
在 大 多 数 情况 下 ， 你 只 会 对 特定 切面 类 型 的 数据 感 兴趣 。 然 而 ,在 大 多 数 切面 类 型 中 , 除了 给 定 
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切面 类 型 的 特定 信息 以 外 ， 你 会 还 得 到 以 下 信息 。 


口 _type: 定义 使 用 的 切面 类 型 ， 每 个 切面 类 型 都 将 提供 此 参数 。 

口 missing: 定义 多 少 文档 没有 足够 的 数据 〈 比如 缺乏 字段 ) 来 计算 切面 。 

口 total: 定义 切面 计算 中 存在 的 标记 数量 。 

口 other: 定义 未 被 包含 进 返回 计数 的 切面 值 ( 比如 ，terms 切 面 中 的 词 条 ) 的 数量 。 


除了 这 个 信息 以 外 ， 你 会 得 到 一 个 数组 ， 包 含 关 于 词 条 、 查 询 或 空间 距离 的 计算 切面 ， 如 
count。 例 如 ， 下 面 的 代码 片段 显示 通常 的 切面 结 











{ 
(。。。) 


"facets" : { 
"tags" : { 
" type" : "terms", 
"missing" : 54715, 
"total" : 151266, 
"other" : 143140, 
"terms" : [ { 
"term" : "test", 
"count" : 1119 
}, { 
"term" : "personal", 
"count" : 1063 
}s 


(。。。) 


} 
} 
} 


可 以 在 结果 中 看 到 ， 切 面 运行 在 tags 字 段 上 。 我 们 共有 151 266 个 标记 被 切面 模块 处 理 ， 
143 140 个 标记 未 包含 在 结果 中 ,我 们 也 有 54715 的 文档 在 tags 字 段 上 没有 值 ,test 词 条 出 现在 1119 
个 文档 中 ，personal 词 条 出 现在 1063 个 文档 中 。 这 些 是 你 可 以 预期 从 切面 得 到 的 响应 。 GE 








6.2.3 ”使 用 查询 进行 切面 计算 

查询 是 最 简单 的 切面 类 型 , 它 允 许 在 切面 结果 中 得 到 与 查询 匹配 的 文档 数量 。 查 询 本 身 可 以 
使 用 Elasticsearch 查 询 语言 来 表达 ， 我 们 已 经 讨论 过 了 。 当 然 ， 可 以 包含 多 个 查询 来 获得 多 项 切 
面 结 果 。 例 如 ， 一 个 为 简单 的 词 条 查询 返回 文档 数目 的 切面 ， 代 码 如 下 所 示 : 

















{ 


"duery" ss { "matceh all"” 3 {} }; 
"facets" : { 
"my_query_facet" : { 
"query" : { 
"term" : { "tags" : "personal" } 
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} 
} 
} 
} 


简单 的 词 条 查询 中 包含 了 一 个 query 类 型 的 切面 。 前 面 查询 的 响应 示例 如 下 : 


{ 
(Caan 
"facets" : { 

"my query facet" : { 
"type" : "query", 
"count" : 1081 

} 

} 
} 


在 啊 应 中 你 可 以 看 到 切面 的 类 型 和 查询 匹配 的 文档 数量 ， 当 然 ， 响 应 中 有 主要 的 查询 结 
我 们 省 略 了 。 














6.2.4 ”使 用 过 滤器 进行 切面 计算 


除了 使 用 查询 以 外 ，Elasticsearch 人 允许 使 用 过 滤 如 来 计算 切面 。 这 与 查询 切面 非常 相似 ， 只 
是 不 使 用 查询 , 而 是 使 用 过 滤器 。 过 滤器 本 身 可 以 使 用 Elasticsearch 查 询 DSL, 并 且 在 单个 请 求 可 
以 使 用 多 个 过 滤器 切 面 。 例 如， 一 个 为 简单 词 条 过 滤器 返回 文档 数目 的 切面 如 下 所 示 : 

{ 
































"query" : { "match all" : {} }, 
"facets" : { 
"my_filter facet" : { 
"filter" : { 
"term" : { "tags" : "personal" } 


} 
} 
} 
} 


你 可 以 看 到 ， 我 们 在 简单 的 词 条 过 滤器 中 包括 了 filter 类 型 的 切面 。 谈 到 性 
面 的 速度 比 query 切 面 或 包装 查询 的 filter 切 面 更 快 。 


前 面 查询 的 响应 示例 如 下 : 


{ 
(as 
"facets" : { 
"my_filter facet" : { 
" type" : "filter", 
"count" : 1081 
} 
} 
} 





,Lter 葬 


让 
mh 
CC 
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在 响应 中 我 们 得 到 了 切面 类 型 ， 以 及 与 切面 过 滤 右 和 主 查 询 匹 配 的 文档 的 数量 。 





6.2.5 terms 切面 


切面 允许 我 们 指定 一 个 字段 ，Elasticsearch 使 用 这 个 字段 并 返回 该 字段 上 最 频繁 的 词 条 。 例 
如 ， 要 计算 tags 字 段 上 最 频繁 的 词 条 ， 可 以 运行 以 下 查询 : 


{ 
naeryy (nt LE 
"facets" : { 
"tags_facet_ result" : { 
"terms" : { 
"field" : "tags" 
} 
} 
} 
} 


Elasticsearch 将 为 上 述 查 询 返 回 如 下 的 切面 响应 


{ 
Cen) 





"facets" : { 

"tags_ facet result" : { 
" type" : "terms", 
"missing" : 54716, 
"total" : 151266, 
"other" : 143140, 
"terms" : [ { 

"term" : "test", 
"count" : 1119 
}, { 
"term" : "personal", 
"count" : 1063 
}, { 
"term" : "feel", 
"count" : 982 
}, { 
"term" : "hot", 
"count" : 923 
Fs 


(...) 
] 
} 
} 
} 


可 以 看 到 ,我们 在 tags_facet_result 节 点 中 得 到 了 terms 切 面 结果 以 及 其 他 已 经 描述 过 
的 信息 。 


terms 切 面 还 可 以 使 用 几 个 额外 的 参数 ， 如 下 所 示 。 
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D size: 此 参数 指定 最 多 返回 多 少 个 最 频繁 的 词 条 。 后 面 词 条 的 文档 数目 将 包含 在 结果 的 

other 字段 中 。 

口 shard_size: 此 参数 指定 执行 查询 的 节点 上 每 个 分 片 会 获取 多 少 结果 。 在 字段 上 的 独特 
词 条 数目 大 于 size 参 数值 的 情况 下 , 它 允 许 你 提高 fezms 切 面 的 精确 度 。 一 般 来 说 , size 
参数 越 大 ， 结 果 越 准确 ， 但 是 计算 更 昂贵 ， 返 回 给 客户 端的 数据 也 更 多 。 为 了 避免 返回 
一 个 很 长 的 结果 列表 ， 可 以 把 snarg_size 设 置 为 一 个 比 size 参 数值 大 的 值 。 这 会 告诉 
Elasticsearch 使 用 它 来 计算 terms 切 面 ， 但 仍然 会 返回 一 个 不 超过 size 大 小 的 词 条 。 请 记 
住 ，shargd_size 参 数 不 能 设置 成 小 于 size 参 数 的 值 。 

口 order: 此 参数 指定 该 切面 的 顺序 。 可 设置 成 : count ( 默认 值 ， 按 照 频 率 排序 ， 从 最 高 
频率 开始 )、term ( 按 字母 升序 顺序 )、reverse_count (按照 频率 排序 ， 从 最 小 频率 开 
各 )、 reverse_ term ( 按 字母 降序 排序 )。 

口 all_terms: 此 参数 设置 为 true 时 ， 将 返回 所 有 词 条 ， 即 使 是 那些 不 匹配 任何 文档 的 词 

条 。 它 可 能 对 性 能 有 要 求 ， 特 别 是 对 词 条 很 多 的 字段 。 

口 exclude: 此 参数 指定 一 组 词 条 ， 它 们 将 从 切面 计算 中 排除 。 

口 regex: 此 参数 指定 一 个 正则 表达 式 ， 用 来 控制 哪些 词 条 应 该 包含 在 计算 中 。 

D script: 此 参数 指定 一 个 脚本 ， 用 于 在 切面 计算 中 处 理 词 条 。 

D fields: 此 参数 指定 一 个 数组 ， 用 于 指定 切面 计算 中 的 多 个 字段 (使 用 该 参数 时 不 再 使 

用 fielg 参 数 )。Elasticsearch 将 返回 跨 多 个 字段 的 聚合 。 此 属性 也 可 以 包括 一 个 特殊 值 ， 

称 为 _index。 如 果 该 值 存在 ， 则 按照 每 个 索引 返回 计算 值 ， 因 此 我 们 能 够 区 分 来 自 多 个 

索引 的 切面 计算 值 ( 当 我 们 对 多 个 索引 执行 查询 时 )。 

口 _script_field: 此 参数 定义 了 一 个 脚本 ， 该 脚本 提供 用 于 计算 的 实际 词 条 。 例 如 ， 可 
以 使 用 基于 _source 字 段 的 词 条 。 






































6.2.6 ”基于 范围 的 切面 

基于 范围 的 切面 使 我 们 可 以 根据 定义 好 的 一 组 范围 获取 文档 数 ,此 外 , 还 可 以 获取 指定 字段 
的 汇总 数据 。 如 果 我 们 想 获 得 total 字 段落 入 小 于 90、 从 90 到 180、 大 于 等 于 180 等 范围 的 文档 数 
量 (注意 范围 的 下 界 是 包含 的 ， 上 界 则 不 含 。 从 90 到 180 意 味 着 >=90 上 且 <180 )， 发 送 以 下 查询 : 

{ 

















tomemy™ 全 { "mateh all™ » A} }; 
"facets" : { 
"ranges_facet result" : { 
"range" : { 
"ELIelLd s "otaLl; 
"ranges" : |[ 


eo a A 
{ "Erom" 2 G0 "Eto" £ 180}, 
{ "From" < T8380 } 
] 
} 
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} 
} 
} 


在 上 面 的 查询 中 可 以 看 到 ， 我 们 利用 field 属 性 来 定义 字段 的 名 字 ，ranges 属 性 来 定义 一 
组 范围 。 每 个 范围 通过 使 用 from、to 或 两 者 来 定义 。 上 述 查 询 的 响应 如 下 所 示 : 














{ 
(aaa) 
"facets" : { 
"ranges facet result" : { 
" type" : "range", 
"ranges" : [ { 
"to" : 90.0, 
"count" : 18210, 
"min" : 0.0, 
"max" : 89.0, 
"total count" : 18210, 
"total" : 39848.0, 
"mean" : 2.1882482152663374 
}, { 
"from" : 90.0, 
"to" : 180.0, 
"count" : 159, 
"min" : 90.0, 
"max" : 178.0, 
"total count" : 159, 
"total" : 19897.0, 
"mean" : 125.13836477987421 
}, { 
"from" : 180.0, 
"count" : 274, 
"min" : 182.0, 
"max" : 57676.0, 
"total count" : 274, 
"total" : 585961.0, 
"mean" : 2138.543795620438 
| 5 
} 
} 
} 








可 以 看 到 ,因为 在 查询 中 为 范围 切面 定义 了 三 种 范围 ,我们 得 到 三 个 范围 的 响应 。 每 个 范围 
以 下 统计 信息 。 

口 from: 定义 了 范围 的 左 界 ( 如 果 在 查询 中 指定 )。 

D to: 定义 了 范围 的 右 界 ( 如 果 在 查询 中 指定 )。 

D min: 定义 了 给 定 范围 内 ， 用 作 切 面 的 字段 的 最 小 值 。 

D max: 定义 了 给 定 范围 内 ， 用 作 切 面 的 字段 的 最 大 值 。 

D count: 定义 了 落 在 指定 范围 内 的 字段 值 的 文档 数目 。 





[Da 
加 
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D total_count: 定义 了 落 在 指定 范围 内 的 字段 值 的 文档 总 数 〈 对 于 单 值 字段 来 说 ， 应 该 
和 count 相 等 ， 但 对 于 多 值 字 段 来 说 ， 可 能 不 相等 )。 
口 total: 定义 了 落 在 指定 范围 内 的 所 有 字段 值 的 总 和 。 
口 mean: 定义 了 落 在 指定 范围 内 用 作 range 切 面 的 字段 值 的 均值 。 

为 聚合 数据 计算 选择 不 同 的 字段 

如 果 计算 聚合 数据 统计 的 字段 跟 计算 范围 的 字段 不 一 样 , 我 们 可 以 用 两 个 属性 : key_fiela 
和 key_value (或 key_script 和 value_script， 人 允许 使 用 脚本 )。key_field 属 性 指定 哪个 
字段 用 于 检查 值 是 否 属于 给 定 范 围 ，value_field 属 性 指定 哪个 字段 的 值 用 于 聚合 计算 。 






































6.2.7 ”数值 和 日 期 直方 图 切面 


直方 图 切面 允许 你 根据 字段 值 的 间隔 来 建立 一 个 字段 值 的 直方 图 ( 对 数值 型 和 日 期 型 字段 )。 
如 果 我 们 想 看 多 少 文档 的 total 字 段落 到 1000 的 间隔 ， 执 行 如 下 查询 : 


{ 
OBE $ € “mateoeh all" + 4} }; 
"facets" : { 
"total_ histogram" : { 
"histogram" : { 
VELELdY :© Mtotal., 
"interval" » 1000 
} 
} 
} 
} 


你 可 以 看 到 ， 我 们 使 用 histogram 切 面 类 型 ， 并且 除 了 fielgd 属 性 ， 还 有 interval 属 性 ， 
定义 了 我 们 想 要 使 用 的 时 间 间 隔 。 前 面 查询 的 响应 示例 如 下 所 示 : 


{ 
在昌) 
"facets" : { 
"total histogram" : { 
" type" : "histogram", 
"entries" : [ { 















































"key" : 0 ‘ 
"count" : 18565 
}, { 


"key" : 1000, 

"count" : 33 
}, 1{ 

"key" : 2000, 

"count" : 14 


}, { 
"key" 3000 
count" : 5 
}, 
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date_histogram 切 面 





对 于 数值 型 字段 ， 除 了 histogram 切 面 类 型 外 ，Elasticsearch 还 提供 了 date_histogram 切 
面 类 型 , 用 于 日 期 型 字段 gqate_histogram 类 型 允许 我 们 使 用 诸如 year、month、 week、day、 
hour 或 minute 等 常量 作为 jnterval 属 性 的 值 。 例 如 ， 可 以 发 送 如 下 查询 : 

{ 











"query™ : { "matceh all™ ; {} }, 
"facets" : { 
"date histogram test" : { 
"date histogram" : { 
"field™ » "date"; 
"interval™ 1%: “day” 
} 


} 
} 


在 数值 型 和 date histogram 切 面 中 ， 都 可 以 使 用 key _ field、 
SS、 key_value、key_script 和 value_script 等 属性 , 这 在 前 面 说 明 terms 切 面 时 


6.2.8 数值 型 字段 统计 数据 的 计算 GE 
statistical 切 面 允 许 我 们 为 数值 型 字段 计算 统计 数据 。 在 返回 数据 中 , 我 们 得 到 计数 、 总 

和 、 平 方 和 、 平 均值 、 最 小 值 、 最 大 值 、 方 差 和 标准 偏差 等 统计 信息 。 例 如 ， 为 total 字 段 计 算 

统计 ， 可 以 执行 如 下 查询 : 
{ 





"query" : { "match all" : {} }, 
"facets" : { 
"statistical_ test" : { 
etatiestical™ sg { 


"field" : "total" 
} 
+ 
} 
. 
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在 结果 中 ， 得 到 如 下 输出 : 


{ 
(ea 
"facets" : { 
"statistical test" : { 
" type" : "statistical", 
"count" : 18643, 
"total" : 645706.0, 
"min" : 0.0, 
"max" : 57676.0, 
"mean" : 34.63530547658639, 
"sum of squares" : 1.2490405256E10, 
"variance" : 668778.6853747752, 
"std deviation" : 817.7889002516329 
} 
} 
} 


前 面 的 输出 返回 了 以 下 统计 信息 。 


口 _type: 定义 了 切面 的 类 型。 

口 count: 定义 了 在 给 定 字 段 上 有 值 的 文档 的 数目 。 
口 total: 定义 了 给 定 字段 所 有 值 的 总 和 。 

D min: 定义 了 字段 的 最 小 值 。 

口 max: 定义 了 字段 的 最 大 值 。 

口 mean: 定义 了 给 定 字段 的 均值 。 

口 sum_of_squares: 定义 了 给 定 字段 上 值 的 平方 和 。 
口 variance: 定义 了 给 定 字段 值 的 方差 。 

口 stdq_deviation: 定义 了 给 定 字 段 值 的 标准 偏差 。 





注意 ， 和 terms 切 面 中 一 样 ， 也 可 以 在 statistical 切 面 中 使 用 script 和 
~ fields 属 性 。 


6.2.9 词 条 统计 数据 的 计算 


除 terms 和 statistical 切 面 外 ，Elasticsearch 人 允许 使 用 terms_stats 切 面 。 它 结合 了 
statistical 和 terms 切 面 类 型 , 提供 给 我 们 基于 一 个 字段 的 值 来 统计 另 一 个 字段 的 能 力 。 如 果 
想 要 total 字 段 上 的 切面 ， 又 想 在 tags 字 段 基 础 上 划分 这 些 值 ， 运 行 以 下 查询 : 

{ 


amary st “mateh ll yy 4 }, 
"facets" : { 
"total_tags_terms_stats" : { 
"terms_stats" : { 


"key_field" : "tags", 
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"value field" : "total" 
} 
} 
} 
} 
我 们 指定 了 key_field 属 性 ， 其 中 包含 了 提供 词 条 的 字段 的 名 称 ; value_fielgd 属 性 





含 数值 字段 的 名 称 。 以 下 是 我 们 从 Elasticsearch 得 到 的 部 分 结 


{ 
(asa) 
"facets" : { 
"total tags terms stats" : { 

" type" : "terms_ stats", 

"missing" : 54715, 

"terms" : [ { 
"term" : "personal", 
"count" : 1063, 
"total count" : 254, 
"min" : 0.0, 
"max" : 322.0, 
"total" : 707.0, 
"mean" : 2.783464566929134 

}, 1{ 
"term" : "me", 
"count" : 715, 
"total count" : 218, 
"min" : 0.0, 
"max" : 138.0, 
"total" : 710.0, 
"mean" : 3.256880733944954 


Gen) 
] 
} 
} 
} 


可 以 看 到 ， 切面 结果 根据 词 条 进行 划分 。 注 意 每 个 词 条 都 返回 了 一 组 统计 ， 跟 ranges 切 面 
中 一 样 〈 这 些 值 的 含义 参见 6.2.6T )。 这 是 因为 我 们 使 用 了 数值 型 字段 (total 字段 ) 来 为 每 个 





字段 计算 切面 的 值 。 


6.2.10 地理 切面 


我 们 想 讨论 的 最 后 一 个 切面 计算 类 型 是 geo_distance 切 面 。 它 能 

















为 此 ， 运 行 以 下 查询 ( 6.6 节 将 讲述 如 何 定 义 1ocation 字 段 ): 
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够 获得 落 入 到 从 给 定位 置 
到 某 距离 范围 内 的 文档 的 数目 信息 。 假 设 我 们 在 索引 中 的 文档 有 个 location 字 段 ， 存 储 了 地 理 
位 置 。 现 在 想象 一 下 我 们 要 获取 距离 某 一 特定 点 的 有 关 文 档 ， 比 如 从 10.0、10.0 这 个 点 ， 想 知道 
有 多 少 文 档 落 在 距离 这 个 点 10 公 里 以 内 ， 多 少 落 在 从 10 到 100 公 里 ， 叉 有 和 多少 落 在 100 公 里 以 外 。 
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{ 
“aquery" % { "mateh all™” :1 {} 1 
"facets" : { 
"spatial test" : { 
"geo_distance" : { 
"location" : { 
"Lae S00 
Lon 2 下 0 人 
5 
"ranges" : [ 


{ "Eo ¥ LO 
{" "frmomY S40; "tov #00 }; 
{ "From" : 100 3 


} 
} 
} 
} 


在 前 面 的 查询 中 ,我 们 定义 了 计算 距离 的 基准 点 的 纬度 (1at 属 性 ) 和 经 度 ( lon 属性 ), 注 
意 ， 我 们 传人 lat 和 1on 属 性 的 对 象 的 名 字 。 该 对 象 的 名 字 必 须 等 于 字段 的 名 字 。 第 二 件 事 是 
ranges 数 组 ， 每 个 范围 可 以 使 用 to、from 或 两 者 来 定义 。 


除了 上 述 属 性 外 ， 还 可 以 设置 unit 属 性 (默认 情况 下 ，km 表 示 公 里 ，mi 表 示 英 里 ) 和 
distance_type 属 性 ( 默认 情况 下 ，arc 精 度 更 高 ，plane 执 行 得 更 快 )。 












































6.2.11 切面 结果 的 过 滤 

查询 中 包含 的 过 滤器 并 不 会 缩小 切面 结果 的 范围 ， 切 面 的 计算 时 基于 与 你 的 查询 匹配 的 文 
档 。 然 而 ,你 可 能 希望 在 你 的 切面 定义 中 包含 你 想 要 的 过 滤 右 。 基 本 上 ， 在 3.5 节 中 讨论 的 任意 
一 个 过 滤 吉 都 可 以 用 在 切面 中 ， 你 所 需 做 的 只 是 在 切面 名 称 下 包含 一 个 额外 的 节点 。 




















如 果 我 们 希望 查询 所 有 文档 ， 但 只 对 tags 字 段 中 含有 fashion 词 条 的 文档 来 为 多 值 字段 
tags 计 算 切 面 ， 可 以 执行 以 下 查询 : 





"query" : { "match all" : {} }, 
"facets" : { 
1 
"terms" : { "field" : "tags" }, 
"facet_filter" : { 
"term" + { "tags" : “fashion" } 


} 
} 
} 
} 


可 以 看 到 ， 在 切面 类 型 (在 上 面 查询 中 的 terms ) 同一 水 平 上 ， 添 加 了 一 个 额外 的 facet_ 





图 灵 社 区 会 员 打 顺 顺 (lvshun@live.cn) 专 享 尊重 版 权 


6.3 使 用 建议 器 201 








filtez 节 点 。 你 只 需要 记 住 facet_filter 部 分 采用 与 2.2 节 描述 的 过 滤器 相同 的 逻辑 来 构建 。 


6.2.12 内存 考虑 


切面 可 能 对 内 存 有 要 求 , 尤其 是 在 索引 中 有 大 量 文档 和 很 多 独特 值 的 情况 下 。 内 存 要 求 高 是 
因为 ，Elasticsearch 需 要 把 数据 加 载 到 字段 数据 缓存 中 来 计算 切面 的 值 。 随 着 aoc 值 的 引入 〈2.2 
节 讨 论 过 )，Elasticsearch 可 以 使 用 这 个 数据 结构 来 执行 所 有 需要 字段 数据 缓存 的 操作 ， 比 如 切面 
和 排序 。 在 大 量 数据 的 情况 下 ， 使 用 aoc 值 是 明智 的 。 老 的 方法 同样 有 用 ， 比 如 使 用 更 低 精 度 的 
日 期 来 降低 字段 的 基 ( cardinality )， 不 分 析 字 符 串 字段 ， 或 者 尽量 使 用 short、integer 或 
float 而 不 是 long 和 double。 如 果 这 些 都 没 用 ， 你 可 能 需要 给 Elasticsearch 配 置 更 高 的 堆 内 存 ， 
甚至 增加 更 多 服务 器 ， 把 索引 分 到 更 多 分 片上 。 



































6.3 ”使 用 建议 器 


从 Elasticsearch 0.90 起 ， 可 以 使 用 所 谓 的 建议 器 ( suggester )。 我 们 可 以 把 建议 器 看 成 这 样 的 
功能 : 在 考虑 性 能 的 情况 下 ， 人 允许 纠 正 用 户 的 拼写 错误 ,以 及 构建 一 个 自动 完成 功能 。 本 三 将 带 
你 走 进 建议 器 的 世界 , 但 是 ,这 不 是 一 个 全 面 的 指导 。 描 述 建议 器 的 所 有 细节 将 是 非常 广泛 的 话 
题 ， 超 出 了 本 书 的 范围 。 如 果 你 想 了 解 更 多 关于 建议 器 的 内 容 ， 请 参阅 Elasticsearch 官 方 文档 
( http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/search-suggesters.html ) 或 我 们 
的 书 ，Mastering ElasticSearch，Packt 出 版 。 



































6.3.1 可 用 的 建议 器 类 型 
Elasticsearch 提 供 了 以 下 三 种 建议 器 的 类 型 。 
口 term: 这 种 建议 器 更 正 每 个 传人 的 单词 ， 在 非 短语 查询 中 很 用， 比如 单词 条 查询 。 
口 phrase: 这 种 建议 器 工作 在 短语 上 ， 返 回 一 个 恰当 的 短语 。 
口 completion: 这 种 建议 器 旨 在 提供 快速 高 效 的 自动 完成 结果 。 


我 们 将 分 别 讨论 这 些 建议 器 。 此 外 ， 也 可 以 使 用 _suggest 这 个 REST 端 点 。 














6.3.2 包含 建议 器 
现在 ， 让 我 们 试 试 在 查询 结果 中 得 到 建议 。 例 如 ， 使 用 match_al11 查 询 并 尝试 为 serlock 
holnes 短 语 得 到 一 个 建议 ， 该 短语 包含 两 个 拼写 错误 的 词 条 。 为 此 ， 我 们 将 执行 以 下 命令 : 
Curl -XGET 'localhost:9200/library/_search?pretty' -d '{ 


mm query" 2 { 
"match all" : {} 
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}, 
"suggest" : { 

"first suggestion" : { 
"text" : "serlock holnes", 
"term" : { 

"field" : " all" 


} 
} 


如 果 和 希望 为 同样 的 文本 得 到 多 个 建议 ， 可 以 把 建议 嵌入 到 suggest 对 象 中 ， 并 把 text 属 性 
设置 为 选择 的 建议 对 象 。 如 果 想 得 到 title 和 _al1 字 段 上 serlock holne 文 本 的 建议 ， 执行 以 
下 命令 : 


Curl -XGET 'localhost:9200/library/_search?pretty' -d '{ 

"query" : { 

"match all" : {} 
}s 
"suggest" : { 

"text" : "serlock holnes", 

"first suggestion" : { 

"term" : { 
"field" : " all" 





























三 
dol 








} 
J 
"second suggestion" : { 
wm term" 2 { 
"field" : "title" 











} 

} 

} 
于 
建议 器 的 响应 
现在 来 看 看 我 们 发 送 的 第 一 个 查询 的 响应 。 你 可 以 猿 到 ， 响 应 将 包括 查询 结果 和 建议 : 
{ 

"took" : 1, 


"timed out" : false, 


"hits" : { 
"total™" : 4, 
"max score" : 1.0, 
"hits" : [ 


] 
有 
"suggest" : { 
"first suggestion" : [ { 
"text" : "serlock", 
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"offset" : 0, 

"length" : 7, 

"options" : [ { 
"text" : "sherlock", 
"score" : 0.85714287, 
"freq" : 1 

}] 

}, 1{ 

"text" : "holnes", 

"offset" : 8, 

"length" : 6, 

"options" : [ { 
"text" : "holmes", 
"score" : 0.8333333, 
"freq" : 1 


} ] 
} ] 

} 
} 


可 以 看 到 ,在 响应 中 得 到 了 搜索 结果 和 建议 ( 省 略 了 查询 的 响应 , 以便 这 个 例子 更 容易 阅读 )。 


term 建 议 带 为 Lext 参 数 中 的 每 个 词 条 返回 了 一 个 可 能 的 建议 列表 。 每 个 词 条 ，term 建 议 带 
都 将 返回 一 组 可 能 的 建议 。 看 看 为 serlock 词 条 返回 的 数据 , 可 以 看 到 原始 的 单词 (text 参数 )、 
它 在 原始 text 参 数 中 的 偏 移 量 ( offset 参 数 ) 和 它 的 长 度 ( length 参 数 )。 


options 数 组 包含 了 给 定单 词 的 建议 , 如 果 Elasticsearch 没 有 找到 任何 建议 , 它 将 为 空 。 数组 
里 的 每 个 条 目 都 是 一 个 建议 ， 通 过 下 面 的 属性 来 描述 。 


口 text: 该 属性 定义 了 建议 的 文本 。 

口 score: 该 属性 定义 了 建议 的 得 分 ， 得 分 越 高 ， 建 议 越 好 。 

D freq: 该 属性 定义 了 建议 的 频率 。 频 率 代表 在 我 们 执行 建议 查询 的 索引 上 ， 该 单词 出 现 
在 文档 中 的 次 数 。 
































6.3.3 ” term 建议 器 

term 建 议 器 基于 字符 申 编 辑 距 离 ( string edit distance ) 工作 。 这 意味 着 ， 通 过 更 少 字 符 的 更 
改 、 添 加 或 删除 就 可 以 让 建议 单词 和 原始 单词 一 样 , 那么 这 样 的 建议 最 好 。 例如 ,我 们 来 看 单词 
worl 和 work。 为 了 把 worl 改 成 work， 需 要 把 ] 改 成 k， 这 意味 着 编辑 距离 为 1。 当 然 ， 提 供给 建议 器 
的 文本 是 经 过 分 析 的 ， 因 此 它 将 选择 词 条 来 建议 。 

1. term 建 议 器 的 配置 选项 


tezrm 建 议 器 中 最 常见 和 常用 的 配置 项 同样 可 以 用 在 基于 term 建 议 器 实现 的 所 有 建议 器 上 。 
目前 ， 有 phzrase 建 议 器 ， 当 然 还 有 基本 的 term 建 议 器 。 可 用 的 选项 如 下 。 
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口 text: 这 个 选项 定义 了 我 们 希望 得 到 建议 的 文本 。 此 参数 是 必须 的 。 

口 field: 这 是 男 一 个 必须 提供 的 参数 。fie1lgd 参 数 设 置 了 为 哪个 字段 生成 建议 。 

口 analyzer: 这 个 选项 定义 了 分 析 器 的 名 字 , 该 分 析 需 用 作 分 析 text 人 参数 提供 的 文本 。 如 
果 未 设置 ，Elasticsearch 将 使 用 field 参 数 所 指定 的 字段 所 用 的 分 析 器 。 

口 size: 这 个 参数 默认 为 5， 指 定 了 text 人 参数 中 每 个 词 条 可 以 返回 的 建议 的 最 大 数字 。 

口 sort : 此 选项 允许 指定 Elasticsearch 返 回 的 建议 如 何 排 序 。 默 认 情 况 下 ， 此 选项 设置 成 
score，Elasticsearch 将 首先 按照 建议 的 得 分 排 ， 然 后 按 文档 频率 ， 最 后 按 词 条 排 。 第 二 
个 可 能 值 为 frequency， 意 味 着 结果 首先 按 文档 频率 排 ， 然 后 按 分 数 ， 最 后 按 词 条 。 


2. 额外 的 term 建 议 器 选项 


除了 前 面 提 到 的 常见 term 建 议 器 选项 外 ，Elasticsearch 还 提供 了 专 对 term 建 议 嚣 有 意义 的 一 
些 额外 选项 ， 其 中 的 一 些 选 项 如 下 。 


口 lowercase_terms: 当 设 置 为 true 时 ， 此 选项 将 告诉 Elasticsearch 把 从 text 字 段 生 成 的 

所 有 经 分 析 后 的 词 条 变 成 小 写 。 

D max_edits: 此 选项 的 默认 值 为 2， 指 定 建议 词 条 允许 的 最 大 编辑 距离 。Elasticsearch 人 允 

许 它 设置 为 1 或 2。 

口 prefix_len: 此 选项 默认 为 1。 如 果 我 们 在 建议 器 的 性 能 上 挣扎 ， 增 加 这 个 值 可 以 提高 

整体 性 能 ， 因 为 这 时 需要 处 理 更 少数 量 的 建议 。 

口 min_word_len: 此 选项 默认 为 4。 指 定 了 返回 的 建议 列表 中 词 条 的 最 少 字符 数 。 

口 shard_size: 此 选项 默认 值 为 size 人 参数 的 值 ， 可 以 用 它 设 定 每 个 分 片上 应 该 读 取 的 最 
大 建议 数量 。 把 该 参数 设置 为 比 size 参 数 大 的 值 ， 会 得 到 更 准确 的 文档 频率 ， 但 代价 是 

建议 右 性 能 的 降低 。 



















































































6.3.4 phrase 建 议 器 


tezm 建 议 器 提供 了 一 个 很 好 的 方式 基于 每 个 词 条 来 纠正 用 户 的 拼写 错误 ， 但 对 短语 来 说 不 
够 好 。 这 就 是 引入 phrase 建 议 器 的 原因 。 它 建立 在 term 建 议 带 之 上 ,但 添加 了 额外 的 短语 计算 
逻辑 。 

我 们 以 一 个 示例 开始 介绍 如 何 使 用 phrase 建 议 器 。 这 次 我 们 将 省 略 查询 中 的 suery 部 分 ， 
为 此 执行 下 面 命令 : 


Curl -XGET '‘'localhost:9200/library/_search?pretty' -d '{ 
"suggest" : { 
"text" : "sherlock holnes", 
"our _ suggestion" : { 
"phrase" : { "field" : " all" } 
} 
} 
3 
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可 以 看 到 上 面 的 命令 ， 几 乎 跟 使 用 eerm 建 议 器 时 一 模 一 样 。 只 是 ， 指 定 了 phrase 类 型 ， 而 
不 是 term 类 型 。 上 述 命令 的 响应 将 如 下 所 示 : 


{ 
"took" : 1, 


"hits" : { 
"total" : 4, 
"max score" : 1.0, 
"hits" : [ 


] 
Fs 
"suggest" : { 
"our suggestion" : [ { 
"text" : "sherlock holnes", 
"offset" : 0, 
"length" : 15, 
"options" : [ { 
"text" : "sherlock holmes", 
"score" : 0.12227806 
}1] 
}1] 
} 
} 


正如 你 所 看 到 的 ， 返 回 的 响应 与 一 个 ezrm 建 议 器 返回 的 非常 类 似 ， 只 是 不 再 返回 一 个 词 ， 


而 是 一 个 结合 的 短语 。 
配置 


因为 phrase 建 议 回 基于 term 建 议 器 , 因此 它 可 以 使 用 term 建议 器 提供 的 一 些 配置 选项 , 它 
们 是 text、size、analyzer 和 shard_size。 除 了 这 些 属性 外 ，phrase 建 议 器 公开 了 如 下 一 
些 额 外 选项 。 


口 max_errors: 此 选项 指定 了 可 纠正 的 短语 中 包含 错误 词 条 的 最 大 数目 、 或 最 大 百分比 。 
该 参数 可 以 设置 为 一 个 整 型 值 ， 比 如 1， 也 可 以 设 成 0 到 1 之 间 的 一 个 浮 点 数 ， 这 时 它 被 当 
成 百分比 。 默 认 情 况 下 ， 该 值 为 1。 意 味 着 给 定 短语 中 最 多 包含 1 个 错误 拼写 的 词 条 。 

口 separator: 此 选项 默认 是 空白 符 ， 指 定 了 用 来 在 结果 字段 中 分 割 词 条 的 分 隔 符 。 



























































6.3.5 ”completion 建 议 器 


completion 建 议 器 允许 我 们 创建 自动 完成 功能 ， 并 且 性 能 很 好 ， 这 是 因为 你 可 以 在 索引 中 
存储 复杂 结构 ， 而 不 是 在 查询 时 计算 。 


为 了 使 用 这 种 基于 前 级 的 建议 器 ,我 们 需要 正确 建立 索引 数据 ， 在 其 中 包含 一 个 叫 
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completion 的 专用 字段 。 为 了 说 明 如 何 使 用 这 种 建议 器 ， 假 设 建立 一 个 自动 完成 功能 来 显示 图 
书 的 作者 。 除 了 作者 的 名 字 以 外 , 我们 希望 返回 该 作者 写 的 图 书 的 标识 符 。 先 用 下 面 的 命令 创建 
一 个 authors 索 3 引 : 











curl -XPOST 'localhost:9200/authors' -d '{ 


"mappings" : { 
"author" : { 
"properties" : { 
"name" : { "type" : "string" }, 
"acn : { 
"type" : "completion", 
"index analyzer" : "simple", 
"search analyzer" : "simple", 
"payloads" : true 
} 
} 
} 





我 们 的 索引 将 包含 一 个 单一 类 型 ， 叫 author。 每 个 文档 有 两 个 字段 : name 字 段 和 ac 字段 ， 
它们 将 用 来 构建 自动 完成 。 我 们 使 用 completion 类 型 定义 ac 字段 ， 另 外 在 索引 和 查询 时 都 使 用 


simple 分 析 咒 。 最 后 一 个 是 payloadq: 随 建议 一 起 返回 一 个 额外 的 选项 信息 ,在 我 们 的 例子 中 ， 
它 将 是 图 书 标识 符 的 数组 。 


1. 索引 数据 















































为 了 创建 索引 ,除了 我 们 通常 提供 的 信息 以 外 , 还 需要 提供 一 些 额 外 的 信息 。 看 看 下 面 的 命 
令 ， 它 索引 了 两 个 描述 作者 的 文档 : 








curl -XPOST 'localhost:9200/authors/author/1' -d '{ 
"name" : "Fyodor Dostoevsky", 
ac wm 2 { 
"input" : [ "fyodor", "dostoevsky" ]， 
"output" : "Fyodor Dostoevsky", 


"payload" : { "books™ : [ "123456", "123457" ] } 
} 


bl 
curl -XPOST 'localhost:9200/authors/author/2' -d '{ 
"name" : "Joseph Conrad", 


"acn : { 
"input" : [ "joseph", "conrad"™ ], 
"output" : "Joseph Conrad", 


"payload" : { "books™ : [ "121211" ] } 
} 
¥” 





注意 ac 字段 的 数据 结构 。 我 们 提供 了 input 、output 和 payload 属 性 。 可 选 的 payloaq 属 


性 用 于 提供 额外 的 返回 信息 。input 属 性 提供 了 建议 器 用 来 生成 自动 完成 功能 的 输入 信息 ， 











机 





它 将 
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被 用 于 匹配 用 户 的 输入 。 可 选 的 output 属 性 告诉 建议 硕 ， 应 该 为 文档 返回 什么 数据 。 
也 可 以 省 略 额外 的 参数 部 分 ， 使 用 我 们 习惯 的 方式 来 建立 索引 ， 就 像 下 面 的 例子 : 


curl -XPOST 'localhost:9200/authors/author/1' -d '{ 
"name" : "Fyodor Dostoevsky", 
"acn : "Fyodor Dostoevsky" 
} 
然而 ， 因 为 completion 建 议 器 在 底层 使 用 了 FST， 因 此 如 果 我 们 使 用 ac 字段 的 第 二 部 分 来 
查找 ,将 找 不 到 前 面 的 文档 。 这 就 是 为 什么 我 们 认为 使 用 第 一 种 建立 索引 的 方式 更 加 方便 ， 因 为 
可 以 控制 想 要 匹配 什么 ， 以 及 想 要 显示 什么 。 




















2. 查询 索引 中 的 completion 建 议 器 数据 
如 果 我 们 想 找到 作者 名 字 以 fyo 开 头 的 文档 ， 可 以 执行 下 面 的 命令 : 


Curl -XGET 'localhost:9200/authors/_ suggest?pretty' -d '{ 
"authorsAutocomplete" : { 
nm 七 extn : "fyo", 
"completion" : { 
nfield" : macn 
} 
} 
ks 


在 看 结果 之 前 ， 让 我 们 讨论 一 下 这 个 查询 。 你 可 以 看 到 ， 我 们 在 _suggest 端 点 执行 命令 ， 
因为 我 们 不 想 执行 标准 查询 ， 只 对 自动 完成 结果 感 兴趣 。 查 询 很 简单 ; 我 们 将 其 名 称 设置 为 
authorsRAutocomplete， 设 置 想 要 自动 完成 的 文本 〈text 属 性 )， 并 且 添 加 包含 配置 的 
completion 对 象 。 上 述 命令 的 结果 将 如 下 所 示 : 


{ 
"_ shards" : { 
"total" : 5, 
"successful" : 5, 
"failed" : 0 
Fs 
"authorsAutocomplete" : [ { 
"text" : "fyo", 
"offset" : 0, 
"length" : 3, 
"options" : [ { 
"text" : "Fyodor Dostoevsky", 
"score" : 1.0, "payload" : {"books":["123456","123457"]} 
}] 
}1] 
} 


在 响应 中 你 可 以 看 到 ， 我 们 得 到 了 要 找 的 文档 ， 并 包含 payload 信 息 。 
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也 可 以 使 用 模糊 搜索 来 容忍 拼写 错误 。 为 此 ， 在 查询 中 包含 一 个 额外 的 fuzzy 节 点 。 例 如 ， 
要 启用 completion 建 议 器 的 模糊 匹配 ， 并 设置 最 大 编辑 距离 为 2 ( 这 意味 着 最 多 允许 2 个 错误 )， 
可 以 发 送 以 下 查询 : 


Curl -XGET 'localhost:9200/authors/_ suggest?pretty' -d '{ 
"authorsAutocomplete" : { 
nm 七 extn : 未 
"completion" : { 
"field" : nac™, 
"fuzzy" : { 
"edit distance" : 2 











} 
} 
} 
} 下 
尽管 犯 了 一 个 拼写 错误 ， 我 们 仍 将 获得 跟 以 前 一 样 的 结果 。 
3. 定制 权重 


默认 情况 下 ， 词 频 将 用 来 决定 前 级 建议 器 返回 文档 的 权重 。 然 而 ， 这 有 时 不 是 最 好 的 方案 。 
这 时 ， 通 过 为 定义 成 completion 的 字段 指定 一 个 weight 属 性 来 定义 建议 的 权重 ， 是 很 有 用 的 。 
weight 属 性 应 该 设置 成 一 个 整 型 值 ， 值 越 高 ， 建 议 越 重要 。 如 果 想 为 示例 中 的 第 一 个 文档 指定 
一 个 权重 ， 执 行 如 下 命令 : 


curl -XPOST 'localhost:9200/authors/author/1' -d '{ 
"name" : "Fyodor Dostoevsky", 
"ac" : { 
"input" : [ "fyodor", "dostoevsky" ]， 
"output" : "Fyodor Dostoevsky", 
"payload™" : { "books™ : [ "123456", "123457" ] }, 
"weight" : 30 
} 
$2 


现在 ， 执 行 示例 查询 ， 结 果 将 如 下 所 示 : 


















































{ 


"authorsAutocomplete" : [ { 
"text" : "fyo", 
"offset" : 0, 
"length" : 3, 
"options" : [ { 
"text" : "Fyodor Dostoevsky", 
"Score" : 30.0, "payload™" : {"books":["123456","123457"]} 
}] 
}] 
} 
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看 看 结果 中 score 的 变化 , 之 前 的 例子 中 它 是 1.0, 现在 是 30.0。 因 为 我 们 在 索引 时 把 weight 
参数 设 成 了 30。 


6.4 预 匹配 怖 


你 有 没有 想 过 如 果 我 们 使 用 反 传 统 模式 的 查询 来 查找 文档 会 如 何 ? 查找 与 文档 匹配 的 查询 
有 意义 吗 ? 在 很 多 解决 方案 中 , 此 模型 都 很 有 用 。 当 你 对 一 个 无 限 的 输入 数据 流 进行 操作 并 搜索 
特定 事件 的 出 现时 ， 可 以 使 用 此 方法 。 这 可 以 用 于 检测 监控 系统 中 的 故障 ， 或 开发 这 样 的 功能 : 
“商店 中 有 符合 预定 义 条 件 的 商品 出 现时 ， 告 诉 我 "。 本 闻 将 介绍 Elasticsearch 预 匹配 器 的 工作 原 
理 ， 以 及 它 如 何 处 理 最 后 这 个 例子 。 


6.4.1 示例 索引 
所 有 关于 预 匹 配器 的 例子 ， 都 将 使 用 一 个 叫 notifiezr 的 索引 ， 它 使 用 下 面 的 命令 来 创建 


Curl -XPOST 'localhost:9200/notifier' -d '{ 
"mappings": { 





"book" : { 
"properties" : { 
"available" : { 
"type" : "boolean" 


} 
} 
} 
} 
bk 


我 们 只 定义 了 一 个 字段 。 其 他 字段 将 使 用 Elasticsearch 的 无 模式 特性 ， 它 们 的 类 型 将 被 猜测 。 





6.4.2” 预 匹配 器 的 准备 


一 个 预 匹配 器 看 上 去 像 Elasticsearch 中 的 一 个 额外 的 文档 类 型 。 这 意味 着 我 们 可 以 存储 任何 
文档 ， 然 后 像 搜 索 任 何 索 引 中 的 普通 类 型 一 样 搜索 它们 。 然 而 ， 预 匹配 器 允许 我 们 倒转 逻辑 : 对 
查询 建立 索引 ， 然 后 发 送 文档 给 Elasticsearch ， 看 看 索引 中 哪个 索引 被 匹配 到 。 以 第 2 章 中 的 
library 为 例 , 试 着 把 查询 索引 到 预 匹 配器 中 。 假设 任何 与 预定 义 的 条 件 匹配 的 图 书 变 得 可 用 时 ， 
通知 我 们 的 用 户 。 

看 看 下 面 的 queryljson 文 件 ， 包 含 了 用 户 生 成 的 一 个 示例 查询 : 
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"term" { 
"人 CL 
} 
}， 
"shouLld™ -4 
"range" : { 
a 
“gt” 去 L900, 
“It .2000 
} 
} 
} 
"must not" 二 { 
+ 
votitler: "mothing" 


} 
} 
} 
} 
} 





此 外 用 户 还 可 以 使 用 我 们 的 假想 用 户 界面 来 定义 过 滤器 。 为 了 说 明 这 些 功 能 , 我 们 得 到 了 一 
个 用 户 查 询 ，query2json 文 件 中 的 这 个 查询 应 该 找到 所 有 写 于 2010 年 之 前 的 可 用 图 书 。 查 询 如 下 
所 示 : 


{ 
"query" : { 
"filtered": { 
tore 
"range" : { 
Wap 
"lt" : 2010 
} 
} 
3} 
"filter" : { 
1 
"available" : true 
} 


} 
} 
} 
} 














现在 ， 把 这 两 个 查询 都 注册 到 预 匹配 器 中 〈 注意 只 是 注册 查询 ， 还 没有 索引 任何 文档 )。 为 
此 ， 执 行 下 面 的 命令 : 
Curl -XPUT '1Localhost :9200/notifier/ .percolator/1' -da @queryl.json 


Curl -XPUT '‘'localhost:9200/notifier/.percolator/old _ books' -da 
@query2.json 








在 前 面 的 示例 中 , 使 用 两 个 完全 不 同 的 标识 符 。 这 样 做 是 为 了 表明 我 们 可 以 使 用 一 个 最 好 的 
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描述 查询 的 标识 符 。 想 把 查询 注册 成 什么 名 字 完 全 取决 于 我 们 。 











现在 可 以 使 用 预 匹配 器 了 。 我 们 的 应 用 程序 向 预 匹配 右 提 供 文 档 ， 并 检查 Elasticsearch 是 否 












































找到 相应 的 查询 。 这 正 是 预 匹配 器 允许 我 们 做 的 : 反 转 搜索 逻辑 。 不 再 是 索引 文档 并 对 其 执行 搜 
索 ， 而 是 存储 查询 并 发 送 文 档 。 作 为 结果 ，Elasticsearch 讲 告诉 我 们 哪些 查询 与 当前 文档 匹配 。 
































我 们 用 一 个 与 上 面 两 个 查询 都 匹配 的 示例 文档 : 它 有 所 需 的 标题 、 发 布 日 期 , 并 注 明 当前 是 


否 可 用 。 发 送 这 个 文档 的 命令 如 下 所 示 : 


Curl -XGET 'localhost:9200/notifier/book/ percolate?pretty' -d '{ 
"doc" : { 
"title": "Crime and Punishment", 
"otitle": "IIpecTrynnéHXne Ww HarkaséaHXne", 
"author": "Fyodor Dostoevsky", 
"year": 1886, 
"characters": ["Raskolnikov", "Sofia Semyonovna Marmeladova"], 
"tags": []， 
"copies": 0, 
"available" : true 
} 
和 





正如 我 们 所 料 ，Elasticsearch 响 应 中 包含 匹配 查询 的 标识 符 。 这 种 响应 将 如 下 所 示 : 


"matches" : [ { 
"_ index" : "notifier", 
m dd" 2 1 中 


"_ index" : "notifier", 
"_id" : "old books" 








这 很 美妙 。 请 注意 该 查询 使 用 的 端点 : _percolate。 索 引 的 名 字 对 应 到 存储 查询 的 索引 ， 





类 型 等 于 映射 中 定义 的 类 型 。 


响应 格式 中 包含 索引 和 查询 标识 符 的 信息 。 当 我 们 搜索 多 个 索引 时 ， 可 以 包 
含 这 些 信 息 。 如 果 只 是 搜索 一 个 索引 ， 添 加 一 个 额外 的 查询 参数 


"matches" : [ "3" ]。 


BB Percolate_format=ids， 响 应 将 变 成 


6.4.3 深入 














因为 注册 在 预 匹配 器 中 的 查询 实际 上 也 是 文档 ， 可 以 向 Elasticsearch 发 送 一 个 正常 查询 ,来 
选择 在 预 匹 配 过 程 中 应 该 使 用 存储 在 .percolator 索 引 中 的 哪个 查询 。 这 听 上 去 有 点 奇怪 ， 但 
确实 提供 了 很 多 可 能 性 。 我 们 的 图 书馆 有 几 组 用 户 ,假设 有 些 用 户 有 权限 借阅 一 些 非常 罕见 的 书 ， 
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或 者 我 们 在 城 











个 ， percolator 类 型 : 
Curl -XPOST 
".percolator" : 
"properties" : 
"branches" : 

"type" . 
"index" : 


'localhost:9200/notifier/.percolat 
{ 

{ 

{ 
"string", 

"not analyzed" 


} 
} 
1 


现在 ， 为 了 注册 这 个 查询 ， 使 用 下 面 的 命令 : 


curl -XPUT 
"query" : { 
"term" : { 
"title" : 
} 
ys 
"branches" : 
}" 


上 面 的 例子 中 ， 用 户 对 任何 标题 中 含有 crime 词 条 
从 三 个 所 列 分 馆 中 借阅 这 些 书 。 当 指定 映射 时 ， 我 们 定 





"crime" 


["brA", "brB", "brD"] 





'localhost:9200/notifier/.percolator/3' 


和 中 有 几 个 分 馆 ， 用 户 可 以 申报 他 们 想 去 哪个 分 馆 借阅 图 书 。 
看 看 如 何 使 用 预 匹 配器 来 实现 这 样 的 用 例 。 为 此 ， 需 要 更 新 映射 。 使 用 








下 面 的 命令 来 添加 一 





or/_ mapping' -d '{ 


-d { 


的 图 书 感 兴趣 ( 词 条 查询 负责 这 个 )， 想 
义 了 branches 字 段 是 未 经 分 析 的 字符 串 





字段 。 现 在 可 以 在 之 前 发 送 的 文档 中 包含 一 个 查询 ， 看 下 我 们 如 何 做 到 这 一 点 。 

















我 们 的 图 书 系统 得 到 了 这 本 书 , 准备 报告 这 本 书 并 | 


昌 检 查 是 否 有 人 对 该 书 感 兴趣 。 为 了 检查 








这 个 , 发送 一 个 描述 该 书 的 文档 , 并 | 
分 馆 感 兴趣 的 用 户 。 这 样 的 请 求 如 下 所 示 : 








curl -XGET 
"doc" : { 
"title": "Crime and Punishment", 
"otitle": "IlpecTynnéHne Wn HaKaSaHIXeny 
"author": "Fyodor Dostoevsky", 
"year": 1886, 
"characters": 
"tags": [], 
"copies": 0, 
"available" 
}a 
"size" : 
"query" : { 
"term" : { 
"branches" : 
} 


["Raskolnikov", 


: true 


10, 


nbrBn 
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'localhost:9200/notifier/book/_ percolate?pretty' 





有 在 请 求 中 添加 一 个 额外 查询 , 该 查询 将 会 限制 用 户 为 对 brB 


-qd { 


"Sofia Semyonovna Marmeladova"], 
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} 
} 


如 果 一 切 都 正确 执行 ，Elasticsearch 返 回 的 响应 应 该 如 下 (我 们 索引 的 查询 以 3 作为 标识 符 ): 





"total" : 1, 

"matches" : [ { 
" index" : "notifier", 
" id" 2: 3 中 

}] 


另外 有 一 点 要 注意 的 是 size 参 数 。 它 人 允许 我 们 限制 返回 匹配 项 的 数目 。 这 对 于 安全 是 必需 
的 : 你 应 该 知道 你 在 做 什么 ， 因 为 返回 的 匹配 查询 数目 可 能 非常 大 ， 这 可 能 意味 着 内 存 相 关 的 
问题 。 

如 果 我 们 可 以 在 发 往 预 匹配 器 的 文档 中 使 用 查询 ， 为 什么 不 能 使 用 Elasticsearch 的 其 他 功能 
呢 ? 当然 可 以 ， 例 如 ， 下 面 发 送 的 文档 包含 了 一 个 聚合 : 

















{ 
REGGT 
"title": "Crime and Punishment", 
"available": true 
hx 
"aggs™ 了 人 
"test" : { 
"terms" : { 
"field" : "branches" 


} 
} 
} 
} 


可 以 包含 查询 、 过 滤器 、 切 面 和 聚合 。 那 么 高 亮 呢 ? 请 看 下 面 的 示例 文档 : 


{ 
se ee 
"title": "Crime and Punishment", 
"year": 1886, 
"available": true 
J 
nsizer 7 10; 
"mighnLlight"s { 
"fields"™: { 
TELEeRe (3} 


} 
} 
} 


可 以 看 到 ， 它 包含 了 一 个 高 亮 节 点 。 响 应 的 一 个 片段 将 如 下 所 示 : 


{ 
"_ index": "notifier", 
"1d" : m3 中 上 
"highlight": { 
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"title"s [ 
"<em>Crime</em> and Punishment" 
] 
} 
} 
注意 ， 预 匹配 器 功能 支持 的 查询 类 型 有 些 限 制 。 在 目前 的 实现 中 ， 父 子 查询 
和 说 套 查 询 不 可 用 , 所 以 你 不 能 使 用 has_child、 top chilgdren、 has_parent 
和 nested 等 查询 。 


1. 得 到 匹配 查询 的 数量 


有 了 时， 你 不 关心 匹配 到 的 查询 本 书 , 你 所 需要 的 只 是 匹配 查询 的 数量 。 在 这 种 情况 下 ,发送 
文档 到 标准 percolator 端 点 的 效率 不 高 。Elasticsearch 公 开 了 _percolate/count 端 点 来 高 效 地 
处 理 这 种 情况 。 这 种 命令 的 一 个 例子 如 下 : 

curl -XGET 'localhost:9200/notifier/book/ percolate/count?pretty' -d '{ 


"doc" : { ... } 
}" 


2. 索引 文档 的 预 匹 配 


还 有 一 种 可 能 ,如 果 我 们 想 检 查 哪些 查询 跟 已 经 编制 到 索引 的 文档 匹配 ,怎么 办 ?当然 , 这 
是 可 以 做 到 的 。 看 看 下 面 的 命令 : 


Curl -XGET 'localhost:9200/library/book/1/_percolate?percolate 
index=notifier' 


此 命令 针对 percolator_index 参 数 指定 的 预 匹 配器 索引 ,来 检查 1ibrary 索 引 中 标识 符 为 
1 的 文档 。 请 记 住 ， 默 认 情 况 下 ，Elasticsearch 使 用 跟 文 档 同 样 索引 中 的 预 匹配 器 ， 这 就 是 我 们 指 
定 percolator_index 人 参数 的 原因 。 


























6.5 文件 的 处 理 


下 一 个 我 们 要 讨论 的 用 例 是 搜索 文件 的 内 容 。 最 显而易见 的 方法 是 在 应 用 中 添加 一 段 逻 辑 , 负 
责 读 取 文件 , 从 中 提取 有 价值 的 信息 , 构建 成 JSON 对 象 , 最 后 把 它们 构建 到 Elasticsearch 的 索引 中 。 

当然 ,这 个 方法 是 可 行 的 ,你 可 以 这 样 做 。 但 我 们 想 向 你 展现 男 一 张 方法 。 可 以 把 文档 发 送 
给 Elasticsearch， 让 它 来 做 内 容 提 取 和 索引 建立 。 这 需要 安装 一 个 额外 的 插件 。 注 意 ， 第 7 章 将 描 
述 插件 ， 所 以 在 此 我 们 略 过 详细 的 描述 ， 执 行 下 面 的 命令 来 安装 attachments 搬 件 : 

















ty 





! 


























bin/plugin -install elasticsearch/elasticsearch-mapper- 
attachments/2.0.0.RC1 


重启 Elasticsearch 后 ， 它 将 奇迹 般 地 获取 一 个 新 技能 ， 我 们 现在 来 用 用 看 。 先 准备 一 个 新 索 
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引 ， 映 射 如 下 : 
{ 
"mappings" : { 
filer 3 
"properties" : { 
"Noter ss { EDEG § “etring", "store™ & GE }, 
ool 3 
"type" : "attachment", 
"fields" : { 
"file" : { "store" : "yes", "index" : "analyzed" }, 
"date" :; { "store" + "yes" }, 
"author" : { "store" : "yes" }, 
"keywords" : { "store" : "yes" }, 
"content_ type" : { "store" : "yes" }, 
"title" : { "store" : "yes" } 


可 以 看 到 ,我们 有 一 个 book 类 型 ， 用 来 存储 文件 的 内 容 , 还 定义 了 一 些 咎 套 字段 ， 如 下 所 示 。 


口 file: 该 字段 定义 了 文件 的 内 容 。 

口 gate: 该 字段 定义 了 文件 的 创建 日 期 。 

口 author: 该 字段 定义 了 文件 的 作者 。 

口 keywords: 该 字段 定义 了 连接 文档 的 一 些 额外 关键 字 。 
口 content_type: 该 字段 定义 了 文档 的 mime 类 型 。 
口 title; 该 字段 定义 了 文档 的 标题 。 


如 果 存 在 ， 这 些 字段 将 从 文件 中 提取 。 在 我 们 的 例子 中 ， 把 这 些 字段 标识 为 stored， 这 可 
以 在 搜索 结果 中 看 到 它们 的 值 。 此 外 ,我 们 定义 了 note 字 段 ， 这 是 一 个 普通 字段 ， 它 将 被 我 们 
而 不 是 被 插件 使 用 。 

现在 ,来 准备 文档 。 看 看 存储 在 indexjson 文 件 中 的 示例 文档 : 


{ 























"book" : "UEsDBBOABgAIAAAAIQODPURCwWjQEAAMIFAAATAAgCWONVPNR 
lbnRfVHIwZXNdLnhtbCCiBAIoOoOAA..", 
"note" : "just a note" 


} 


你 可 以 看 到 ，book 字 段 中 有 一 些 奇 怪 的 内 容 。 它 是 使 用 Base64 算 法 编码 的 文件 内 容 ( 注意 
这 只 是 它 的 一 小 部 分 ， 为 清楚 起 见 ， 我 们 省 略 了 其 他 部 分 )。 因 为 文件 内 容 可 以 是 二 进 制 的 ， 不 
能 简单 地 包含 进 JSON 对 象 中 ， 因 此 Elasticsearch 的 作者 要 求 我 们 使 用 该 算法 来 编码 文件 内 容 。 在 
Linux 操 作 系 统 上 ， 有 一 个 简单 命令 用 来 把 文档 内 容 编码 成 Base64， 比 如 ， 可 以 使 用 下 列 命令 : 
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base64 -i example.docx -oo example.docx.base64 


假设 你 已 经 成 功 创建 了 一 个 合法 的 Base64 版 本 的 文档 ,。 现在, 可 以 通过 执行 下 面 命令 来 索引 
该 文档 : 








Curl -XPUT 'localhost:9200/media/file/1l?pretty' -d @index.json 


这 很 简单 。Elasticsearch 在 后 台 解 码 文件 ， 提 取 内 容 ， 并 在 我 们 的 索引 中 创建 适当 的 条 
现在 ,创建 用 于 查找 文档 的 查询 ( 放置 到 query.json 文 件 中 )， 如 下 所 示 








{ 
"fields" : ["title", "author", "date", "keywords", 
"content_type", "note"], 
"query" : { 
"term" : { "book" : "example" } 


} 
} 


如 果 你 仔细 看 过 前 面 几 章 ,上面 的 查询 应 该 很 容易 理解 ,我们 请 求 book 字 有 段 的 example 一 词 。 
我 们 编码 过 的 示例 文档 ， 包 含 以 下 文本 : This is an example document for 'Elasticsearch 
Server' book。 因 此 ， 我 们 刚才 的 示例 查询 应 该 与 我 们 的 文档 匹配 。 执 行 以 下 命令 来 验证 这 


假设 : 


























Curl -XGET 'localhost:9200/media/_search?pretty' -d @query.json 
如 果 一 切 顺利 ， 应 该 得 到 类 似 下 面 的 响应 


{ 
"took" : 2， 
"timed out" : false, 
"_ shards" : { 
"total" : 5, 
"successful" : 5, 
"failed" : 0 





}, 
"hits" : { 
"total" : 1, 
"max_ score" : 0.095891505, 
"hits" : [ { 
" index" : "media", 
" type" : "file", 
A 
"_score" : 0.095891505, 
"fields" : { 
"book.date" : [ "2014-02-08T09:34:00.000Z" ]， 
"book.content type" : [ "application/vnd.openxmlformats- 
officedocument .wordprocessingml .document" ]， 
"note" : [ "just a note" ], 
"book.author" : [ "Rafai Kux, Marek Rogozizski" ] 
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} 
} 








看 下 结果 ， 你 可 以 发 现 内 容 类 型 是 application/vnd.openxmlformats-officedocument. 
wordpro-cessingml .document。 你 可 以 猜 到 我 们 的 文档 使 用 Microsoft Office 创 建 的 ， 扩 展 名 很 可 
能 是 docx。 我 们 还 看 到 了 从 文档 中 提取 的 其 他 啊 额 外 字段 ， 比 如 作者 、 修 改 日 期 。 一 切 正常 ! 





添加 文件 的 额外 信息 


索引 文件 时 , 一 个 显而易见 的 需求 是 在 结果 列表 中 返回 文件 名 。 当 然 , 我 们 可 以 在 文档 中 添 
加 一 个 文件 名 的 字段 ， 但 Elasticsearch 人 允许 在 文件 对 象 中 存储 这 些 信 息 。 我 们 只 需 在 发 送 给 
Elasticsearch 的 文档 中 添加 _name 字 段 。 如 果 想 把 esxample.docx 这 个 名 字 索 引 成 文档 的 名 字 , 可 
以 发 送 如 下 文档 : 
{ 
人 
"UESDBBOABG9AIAAAAIQODPURCw]JjQEAAMIEFAAATAAGCWONvbnR1LbnREVH1 
WZXNdLnhtbCCiBAIOOAA...", 
"_name" : "example.docx", 


"note" : "just a note" 


} 

通过 包含 _name 字 段 , Elasticsearch 将 在 结果 列表 包括 名 称 。 文件 名 将 作为 _source 字 上 段 的 一 
部 分 。 但 是 ， 如 果 你 使 用 fieldas 属 性 ， 又 要 在 结果 中 返回 文件 名 称 ， 就 应 该 添加 _source 字 段 
为 此 属性 中 的 一 个 条 目 。 


最 后 ,你 可 以 使 用 content_type 字 段 来 存储 mime 类 型 信息 ,正如 我 们 使 用 _name 字 段 来 存 
储 文件 名 。 


















































6.6 地理 


通常 我 们 是 从 全 文 搜索 的 角度 来 看 待 像 Elasticsearch 这 样 的 搜索 服务 器 的 。 但 这 只 是 全 局 的 
一 部 分 。 有 时 ， 全 文 搜索 是 不 够 的 。 想 象 一 个 本 地 服务 的 搜索 ， 对 最 终 用 户 来 说 ， 最 重要 的 是 搜 
索 的 准确 性 。 准 确 性 不 仅 指 全 文 搜索 中 正确 的 结果 ,还 包括 结果 跟 某 位 置 越 近 越 好 。 在 一 些 情 况 
下 ,这 意味 着 对 地 理 名 称 的 文本 搜索 ， 比 如 城市 或 街道 ; 但 在 男 外 一 些 情况 下 ,我 们 发 现 能 够 给 
予 索 引文 档 的 地 理 坐 标 来 搜索 是 非常 有 用 的 。 而 这 个 也 是 Elasticsearch 能 够 处 理 的 功能 。 

















6.6.1 为 空间 搜索 准备 映射 


为 了 探讨 空间 搜索 功能 , 让 我 们 准备 一 个 包含 城市 列表 的 索引 。 这 将 是 一 个 非常 简单 的 索引 ， 
包含 一 个 名 为 poi 的 类 型 (poi: point of interest， 兴 趣 点 )， 城 市 的 名 称 和 它 的 坐标 。 映 射 如 下 : 
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{ 
"mappings" : { 
WB6OL™ a 1{ 
"properties" : { 
"name" 2 { "type : “string™ }; 
"location" : { "type" : "geo_ point" } 


} 
} 
} 
} 


假设 我 们 把 这 个 定义 存 到 mapping.json 文 件 中 , 可 以 
curl -XPUT localhost:9200/map -d @mapping.json 


的 新 东西 是 geo_point 类 型 ， 


叭 
理 位 置 。 

















6.6.2 ”示例 数据 
我 们 文档 的 示例 文件 如 下 所 示 : 


一 一 一 一 一 一 一 一 一 一 一 


"index" 
name" : 
"index" 
"name" : 
"index" 
name" : 


"index" 
a 
"index" 
"name" : 


: { "_index 
"New York" 


: { "_index" 


"London", 


: { "_index" 


"Moscow", 


: { "_index" 


"Sydney", 


: { "_index" 


"Lisbon", 


" : "map" [ 
。 ’ 


， "location" : 


na 
"location" : 

2 mab; 
"location" 


: map", " 
"location" 
: map", " 
"location" 





_type" : 
"40.664167， 
ES 人 3 MOL"., 
[0 2757， 5 
type™ 1: VoL™.; 
{Lat 
EyBe™ 3 MOL™., 
2 "=-33.859972. 
type" : "poi 





wpoEw™, 


pe 

















te 0 全 于 
=73.938611" 
Ws WE 
“3507222] 下 
TO 3 
TE TLoOm 全 
Ws Me 
62 
We a 


: "eycs0p8ukc7v" } 


通过 执行 下 面 的 命令 来 创建 一 个 索引 : 


用 在 location 字 段 上 。 通 过 它 ， 我 们 可 以 存储 城市 的 地 


.616667 


为 了 执行 批量 请 求 ， 我 们 添加 了 有 关 索 引 名 称 ， 类 型 和 文档 的 唯一 标识 符 。 所 以 , 我 们 现在 
可 以 使 用 以 下 命令 轻松 导入 此 数据 : 
Curl -XPOST http://localhost:9200/ bulk --data-binary @documents.json 


应 该 仔细 看 看 10cation 字 段 。 我 们 可 以 在 坐标 中 使 用 各 种 符号 ,使 用 字符 串 、 数 字 对 或 者 


一 个 对 象 来 所 化 








t 经 纬度 。 注意 使 月 





日 字符 串 和 数组 来 提供 地 到 








位 置 时 , 在 经 度 和 纬度 参数 上 有 不 同 





的 顺序 。 最 后 一 条 记录 展现 了 另外 一 种 提供 坐标 的 办 法 ， 即 使 用 地 理 散 列 值 ( geohash value )， 
这 里 可 以 找到 该 符号 的 描述 : http://en.wikipedia.org/wiki/Geohash。 


6.6.3 ”示例 查询 
现在 ， 证 我 们 看 看 几 个 例子 ， 说明 如 何 使 用 坐标 ， 以 及 如 何 解决 在 现代 应 用 中 , 在 全 文 搜索 
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中 搜索 地 理 数据 的 常见 需求 。 
1. 基于 距离 的 排序 


先 来 看 一 个 非常 常见 的 需求 : 按照 与 给 定 地 点 的 距离 来 对 结果 排序 。 在 我 们 的 例子 中 , 希望 
得 到 所 有 的 城市 ， 并 按照 距 法 国 首都 巴黎 的 距离 来 排序 。 为 此 ， 发 送 以 下 查询 到 Elasticsearch 中 : 
{ 


"query" : { 
"mateh alL™ 3 {} 





ja 
VaortY 3 E+ 
"_geo_ distance" : { 
"Locationmn™ i V48,.8567, 2..3508™., 
"init % km" 
} 
}] 
} 


如 果 你 记得 3.8 节 , 就 会 注意 到 格式 有 细微 不 同 。 我 们 使 用 _geo_qistance 键 来 表明 按照 距离 
进 排序 。 我 们 必须 提供 基准 地 点 ( location 属 性 ， 在 我 们 的 例子 中 ,包含 了 巴黎 的 信息 )， 以 及 
指定 用 在 结果 中 的 单位 ， 可 用 的 值 包 含 km 和 mi， 分 别 表示 公里 和 英里 。 该 查询 的 结果 如 下 所 示 : 


{ 
"took" : 102, 
"timed out" : false, 
"_shards" : { 
"total™ 3 .57 
"successful" : 5, 
"failed" : 0 
Fs 
"hits" : { 
"total™ 3 5 
"max _ score" : null, 
"hits" : [ { 
"_ index" : "map", 
" type" : "poi", 
Co 二， 汪 作 下 
"_score" : null, " source" : { "name" : "London", "location" : [- 
0.1275, 51.507222] }, 
"sort" : [ 343.46748684411773 ] 
}, 1{ 
"_index" : "map", 
"_type" : "poi", 
了 
"_score" : null, " source" : { "name" : "Lisbon", "location" : 
"eycs0p8ukc7v" }, 
"sort" : [ 1453.6450747751787 ] 
}, 1{ 
"_index" : "map", 
"_type" : "poi", 
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i 
"_score" : null, " source"™ : { "name" : "Moscow", "location™ : 
{ "lat" : 55.75, "lon" : 37.616667 }}, 
"sort" : [ 2486.2560754763977 ] 
}, 1{ 
"_index" : "map", 
"_ type" : "poi", 
Td s 1 
"_score™" : null, " source"™ : { "name" : "New York", "location" 
: "40.664167, -73.938611" }, 
"sort" : [ 5835.763890418129 ] 
}, { 
"_index" : "map", 
"_ type" : "poi", 
drs WA; 
"_Score" : null, " source" : { "name" : "Sydney", "location" : 
"-33.859972, 151.211111" }, 
"sort" : [ 16960.04911335322 ] 
}] 
} 
} 


至 于 排序 的 其 他 例子 ，Elasticsearch 显 示 了 用 于 排序 的 值 的 信息 。 让 我 们 看 看 突出 显示 的 记 
录 。 可 以 看 到 ， 巴 黎 和 伦敦 之 间 的 距离 约 343 公 里 ， 你 可 以 看 到 地 图 上 确实 如 此 。 


2. 边界 框 过 滤 

我 们 要 展现 的 下 一 个 例子 是 ,缩小 结果 到 一 个 被 矩形 框 住 的 选 定 区 域 。 当 我 们 需要 在 地 图 上 
显示 结果 ， 或 者 允许 用 户 标 记 地 图 区 域 来 搜索 时 ， 这 是 非常 方便 的 。 

3.5 节 介绍 过 过 滤器 ， 但 当时 我 们 没有 提 到 空间 过 滤器 。 下 面 的 查询 展示 了 如 何 使 用 边界 框 
来 过 滤 : 




















{ 
人 
"geo_bounding box" : { 
"OGAatioOnm™ % { 
"EGB leftu :52 4796; =1.903", 
"Bottom 让 LE ss 48.8567; D3508" 


} 
} 
} 
} 
在 前 面 的 示例 中 ,我 们 通过 提供 左上 和 右 下 坐标 , 选择 了 伯明翰 和 巴黎 之 间 的 一 个 地 图 片段 。 
这 两 个 坐标 足以 指定 任何 我 们 想 要 的 矩形 区 域 ，Elasticsearch 会 做 剩 下 的 计算 。 下 面 的 屏幕 快照 
显示 指定 的 地 图 上 的 和 矩形: 
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可 以 看 到 ， 我 们 的 数据 中 唯一 符合 条 件 的 城市 是 伦敦 。 运 行 上 述 查 询 来 检查 Elasticsearch 是 
和 否 知道 这 个 。 看 看 返回 的 结果 ， 如 下 所 示 : 





{ 
"took" : 9， 
"timed out" : false, 
"_shards" : { 
ntotal™ 3 5 
"successful" : 5, 
"failed" : 0 
}, 
"hits" : { 
"total™" : 1, 
"max score" : 1.0, 
"hits" : [ { 
"_ index" : "map", 
" type" : "poi", 
"dr :3 TZ 
"_score" : 1.0, "_ source" : { "name" : "London", "location" : 
[-0.1275, 51.507222] } 
}] 
} 
} 


可 以 看 到 ，Elasticsearch 又 一 次 跟 地 图 一 致 。 
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3. 距离 的 限制 


最 后 一 个 示例 显示 下 一 个 常见 需求 : 把 结果 限定 为 离 基准 点 一 个 选 定 的 距离 之 内 。 如 果 我 们 
把 结果 限定 为 离 巴黎 半径 500 公 里 以 内 ， 可 以 使 用 下 面 的 过 滤器 : 








和 
"filter™ : { 
"geo_distance" : { 
"Location. s "48,.8567; 2.3508"; 
"distance" : "500km" 
} 
} 
} 





如 果 一 切 正 常 ，Elasticsearch 应 该 只 为 上 述 查 询 返 回 一 条 记录 ， 该 记录 应 该 是 London。 请 读 
者 自行 验证 。 


6.6.4 任意 地 理 形 状 


有 时 ， 使 用 单一 的 地 理 点 或 矩形 是 不 够 的 。 在 这 种 情况 下 ， 需 要 更 复杂 的 东西 ，Elasticsearch 
提供 了 定义 形状 的 功能 来 解决 这 个 需求 。 为 了 展示 我 们 在 Elasticsearch 中 如 何 利用 自 定义 形状 限于 
需要 修改 索引 ， 引 入 geo_shape 类 型 。 我 们 的 新 映射 如 下 所 示 〈 将 用 它 来 创建 名 为 map2 的 索引 ): 





一 局 





?9 





{ 
OE 宝 萎 
"properties" : { 
"name" : { "type" : "string", "index": "not_ analyzed" }, 
"Jocation" : { "type" : "geo_shape" } 
} 
} 
} 


接 下 来 ,修改 示 例 数据 ， 以 匹配 新 的 索引 结构 ， 如 下 所 示 : 




















{ "index”" : { "“_ index" ; "map2", " type" : "Boi", ™ id" : 1 }3} 

{ "name" : "New York", "location" : { "type": "point", "coordinates": 
[-73.938611, 40.664167] }} 

{ vindex™ 3 {€ ™_index™ © “map2";, vv type™ “ol; “_id" + 2 }} 

{ "name" : "London", "location" : { "type": "point", "coordinates": 
[=0L275; SL:507222] +41} 

{ "index™ 2 { ™ index™ 3; "map2", " type 3: "oi, ™_1id” ; 3 }3 

{ "name" : "Moscow", "location" : { "type": "point", "coordinates": [ 
37,.616667; 55..75]}} 

{ "index" % { " index" : "map2"; Ttype™ : "poli", 1gd" 7 4 1} 

{ "name" : "Sydney", "location" : { "type": "point", "coordinates": 
[151.211111, -33.865143]}} 

{ "inder" : { “inde 3s Wap2", "Eype 3 "OL ld" s 5 } 

{ "name" : "Lisbon", "location" : { "type": "point", "coordinates": 


[-9.142685, 38.736946] }} 
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geo_shape 类 型 字段 的 结构 不 同 于 geo_point。 它 的 语法 称 为 GeoJSON ( http://en.wikipedia. 
org/wiki/GeoJSON )。 它 允许 我 们 定义 各 种 地 理 类 型 。 总 结 一 下 可 以 使 用 在 查询 期 间 的 类 型 ， 至 
少 包括 我 们 认为 最 有 用 的 那些 。 


1. 点 








一 个 点 由 一 个 表 定义 , 第 一 个 元 素 是 经 度 , 第 二 个 元 素 是 纬度 。 该 形状 的 一 个 例子 如 下 所 示 : 


{ 


"Tocationm™. 二 六 
"typBerns "poOLnt™; 
"coordinates": [-0.1275, 51.507222] 
} 
} 
2. 包 络 线 


一 个 包 络 线 ( Envelope ) 通过 提供 左上 和 右 下 两 个 坐标 定义 一 个 框 。 例 子 如 下 所 示 : 


{ 
"type": "envelope", 
"Coordinates": [[ -0.087890625, 51.50874245880332 ], [ 
2.4169921875, 48.80686346108517 ]] 


一 个 多 边 形 通过 一 个 连接 点 的 列表 来 创建 。 数组 中 的 第 一 个 点 和 最 后 一 个 点 必须 一 样 ， 从 而 
让 该 多 边 形 是 闭合 的 。 一 个 例子 如 下 : 


{ 
"type": "polygon", 
"coordinates": [I 
[-5.756836, 49.991408],， 
[-7.250977, 55.124723]， 
[1.845703, 51.500194],， GE 
[-5.756836, 49.991408] 


]] 
’ 


仔细 查看 形状 的 定义 ,你 会 发 现 一 个 它 是 一 个 可 扩展 的 数组 。 归功 于 此 , 你 可 以 定义 多 个 多 
边 形 。 在 这 种 情况 下 ， 第 一 个 多 边 形 定义 基准 形状 ， 其 他 多 边 形 将 从 基准 形状 中 排除 。 





4. 多 个 多 边 形 
我 们 可 以 创建 一 个 包含 多 个 多 边 形 (Multipolygon ) 的 形状 ， 例 子 如 下 所 示 : 


{ 
"type": "multipolygon", 
"coordinates": [ 
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-5.756836，49.991408]， 
=7:250977; S55.124723]; 
1.845703, 51.500194],， 
=5.756836; 49.991408] 


-0.087890625, 51.50874245880332],， 
2.4169921875, 48.80686346108517]， 
3.88916015625, 51.01375465718826],， 
-0.087890625, 51.50874245880332] 





} 


multipolygon 形 状 包含 多 个 多 边 形 ， 与 polygon 类 型 的 规则 一 样 。 因 此 ， 我 们 可 以 有 多 个 
多 边 形 ， 此 外 还 可 以 包含 多 个 被 排除 的 形状 。 
5. 一 个 示例 用 法 
现在 , 我 们 的 索引 中 有 了 geo_shape 字 上段, 以 检查 哪些 城市 位 于 英国 。 为 此 可 以 发 送 下 列 查 询 : 
{ 
"filter™s { 


"geo_shape": { 
"Location vf 








"shape": { 
Li type Li : "polygon" 
"coordinates": [I 


[-5.756836, 49.991408], [-7.250977, 55.124723], [- 
3.955078, 59.352096], [1.845703, 51.500194], [- 
5.756836, 49.991408] 





polygon 类 型 以 非常 精确 的 方式 定义 了 英国 的 边界 。Elasticsearch 返 回 如 下 的 响应 : 


"hits": [ 
{ 
"_index": "map2", 
"_ type": "poi", 
"_id": "2", 
"_score": 1, 
"_source": { 
"name": "London", 
"location": { 
"type": "point", 
"coordinates": [ 
-0.1275, 


图 灵 社 区 会 员 打 顺 顺 (lvshun@live.cn) 专 享 尊重 版 权 





6.6 地理 225 





51.507222 





据 我 们 所 知 ， 该 结果 是 正确 的 。 
6. 索引 中 形状 的 排序 


通常 ， 形 状 的 定义 很 复杂 ， 定 义 的 区 域 也 不 会 经 常 改变 〈 例如， 英国 的 边界 )。 在 这 种 情况 
下 ， 如 果 能 在 索引 中 定义 形状 并 且 在 查询 中 使 用 它们 ， 就 会 很 方便 。 这 是 可 能 的 ,我 们 现在 来 讨 
论 如 何 做 到 这 一 点 。 像 往常 一 样 ， 先 定义 一 个 合适 的 映射 ， 如 下 所 示 : 


{ 
CTS 
"properties": { 
"name": { "type": "string", "index": "not_ analyzed" }, 
"area": { "type": "geo_shape" } 




















该 映射 类 似 于 以 前 使 用 的 映射 。 我 们 只 是 改变 了 字段 名 称 。 使 用 的 示例 数据 如 下 : 





{"index": { "_index": "countries", "_ type": "country", "_id": 1 }} 
{"name": "UK", "area": {"type": "polygon", "coordinates": [[ [- 
5.756836, 49.991408], [-7.250977, 55.124723], [-3.955078, 


59.352096], [1.845703, 51.500194], [-5.756836, 49.991408] ]]}} 
{"index"; { " index": "countries", ™ type”": "country", ”_id": 2 }} 
{"name": "France", "area": { "type":"polygon", "coordinates": [ [ 

[ 3.1640625, 42.09822241118974 ], [ -1.7578125, 

43.32517767999296 ]， -4.21875, 48.22467264956519 ]，[ 

2.4609375, 50.90303283111257 ], [ 7.998046875, 

48.980216985374994 ]，[ 7.470703125, 44.08758502824516 ]，[ 

3.1640625, 42.09822241118974 ] ] }} 














{"index"™: { " index"y "countries”, type “country”, "id"s 3 }} 

{"name": "Spain", "area": { "type": "polygon", "coordinates": [ [ 
[ 3.33984375, 42.22851735620852 ]，[ -1.845703125, 
43.32517767999296 ]， -9.404296875, 43.19716728250127 ]，[ - 
6.6796875, 41.57436130598913 ]，[ -7.3828125, 36.87962060502676 
], [ -2.109375, 36.52729481454624 ]， 3.33984375, 


42.22851735620852 ] ] ] }} 


你 可 以 看 到 数据 中 ,每 个 文档 包含 一 个 polygon 类 型 ,多 边 形 定义 给 定 国家 的 区 域 ( 不 准确 )。 
记 住 形状 的 第 一 个 点 和 最 后 一 个 点 必须 一 样 ， 从 而 形状 能 够 闭合 。 现 在 , 我 们 修改 查询 以 包含 索 
引 中 的 形状 。 新 查询 如 下 所 示 : 


{ 
"filter": { 
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"geo_shape": { 
"LocationY: 二 
"indexed_ shape": { 


"index": “countries"., 
"type": "country", 
"path": "area", 
ds 


} 
} 
} 
} 

} 

比较 这 两 种 查询 时 ， 我 们 可 以 注意 到 shape 对 象 变 成 了 indexed_shape。 我 们 需要 告诉 
Elasticsearch 到 哪里 去 找到 这 个 形状 。 为 此 ， 可 以 定义 索引 ( index 属 性 ， 默 认 是 shape )， 类 型 
( type 属 性 )， 以 及 路 径 (path 属 性 ， 默 认 是 shape )。 缺少 形状 的 id 属 性 ， 在 我 们 的 例子 中 , 它 
是 1。 然 而 ， 如 果 你 要 索引 更 多 形状 ， 我们 会 建议 你 除了 标识 符 以 外 ， 还 要 索引 形状 的 名 字 。 









































6.7 ” 卷 动 AP| 


假设 我 们 有 一 个 含 数 百 万 文档 的 索引 。 我 们 已 经 知道 如 何 构建 查询 , 何 时 使 用 过 滤器 等 。 但 
从 查询 日 志 中 , 我 们 看 到 一 种 特定 类 型 的 查询 明显 比 别 的 查询 慢 。 这 些 查 询 可 能 使 用 了 分 页 ， 从 
from 参 数 看 到 偏 移 量 是 一 个 很 大 的 值 。 从 应 用 程序 的 角度 ， 这 意味 着 用 户 可 能 在 检索 一 个 数量 
非常 大 的 结果 集 。 通 常 这 是 不 合理 的 : 如 果 用 户 没 有 在 前 几 页 找到 想 要 的 结果 ,通常 会 放弃 。 因 
为 这 个 特定 的 行为 可 能 不 是 好 事 ( 也 许 是 委 取 数据 )， 许 多 应 用 程序 限制 分 页 到 只 有 几 十 页 。 在 
我 们 的 例子 中 ,我们 假设 不 是 这 个 场景 ， 而 是 必须 提供 此 功能 。 





























6.7.1 问题 定义 


Elasticsearch 生 成 响应 时 ， 它 必须 确定 文档 的 顺序 来 形成 结果 。 如 果 我 们 在 第 一 页 ， 这 不 是 
个 大 问题 ，Elasticsearch 只 是 找到 相关 文档 集 并 收集 开头 的 比方 说 20 个 文档 。 但 是 如 果 我 们 在 第 
十 页 上 ，Elasticsearch 要 取得 从 第 一 页 到 第 十 页 的 所 有 文档 ， 然 后 丢弃 一 到 九 页 上 的 文档 。 该 问 
题 不 是 Elasticsearch 特 有 的 ， 类 似 的 情况 会 发 生 在 每 一 个 使 用 所 谓 的 优先 队列 的 系统 中 ， 比 如 ， 
数据 库 系统 。 








6.7.2 ”作为 解决 方案 的 卷 动 


解决 方案 很 简单 。 既 然 Elasticsearch 必 须 为 每 个 请 求 做 一 些 操 作 ( 确定 某 页 面 之 前 的 文档 )， 
我 们 可 以 让 Elasticsearch 为 后 续 查 询 存储 该 信息 。 缺点 是 不 能 永远 存储 这 些 信息 ， 因 为 资源 有 限 。 
Elasticsearch 假 定 我 们 可 以 声明 需要 此 信息 多 久 可 用 。 来 看 看 它 实际 是 怎么 工作 的 。 
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首先 ， 像 平常 一 样 查询 Elasticsearch。 然 而 ， 除 了 所 有 已 知 的 参数 ， 再 添加 一 个 参数 ， 它 带 
有 我 们 使 用 卷 动 的 信息 ， 以 及 我 们 建议 Elasticsearch 保 存 结果 言 息 多 长 时 间 。 为 此 可 以 发 送 如 下 
查询 : 

curl 'localhost:9200/library/_search?pretty&scroll=5m' -qd '{ 

"query" : { 


"match all" : { } 
} 














} 下 
这 个 查询 的 具体 内 容 无 关 紧要 。 重 要 的 是 Elasticsearch 如 何 修改 响应 。 看 看 Elasticsearch 返 回 
的 响应 中 的 前 几 行 : 


{ 

"_scroll id" 
"CXVlcnlUaGVuRmVOY2g7NTsxMDI6dkl1NM1kzTG1RTDJ2b25o0TDNENmJzZzsxMD 
U6dk1LNM1IKzTGLRITDJ2b25oTDNENmJzZzSsxMDQ6dk1LNMILKzTGLRTDJ2b25oTDNEN 
mmJZzZZSXMDE6dk1LNM1IkzTG1LRTDJ2b25oTDNENmJzZzSxMDM6dk1LNM1IKzTGLRTDJ 
2b25oTDNENmJzZzSwOw=="， 

"took" : 9， 

"timed out" : false, 

"_ shards" : { 
"total" : 5, 
"successful" : 5, 
"failed" : 0 





}, 
"hits" : { 
"total" : 1341211, 





新 的 部 分 是 _scroll_id 节 点 。 这 是 一 个 我 们 在 后 续 查 询 中 要 使 用 的 句柄 。Elasticsearch 对 此 
有 一 个 特殊 的 端点 : _search/scroll。 我 们 来 看 看 下 面 的 例子 : 


Curl -XGET 
'localhost:9200/_search/scroll?scroll=5m&prettyé&scroll id= 
CcXVlcnlUaGVuRmVOY2g7NTsxMjg6dkl1N1kzTG1RTDJ2b25o0TDNENmJzZzsxMjk6 
dklNM]IkzTG1RTDJ2b25o0TDNENmJzZZzsxMZA6dkl1NMl1kzTG1RTDJ2b25oTDNENmJzZ 
zsxMjc6dklNM1kzTG1RTDJ2b25oTDNENmJZzZzsxMjY6dkl1NM1kzTG1RTDJ2b25oT 
DNENmJzZzs ==' 


现在 , 每 一 次 使 用 scrol1_id 对 该 端点 进行 调用 ,都 会 返回 结果 的 下 一 页 。 记 住 , 这 个 句柄 
只 在 定义 的 不 活动 时 间 内 有 效 。 时间 过 去 后 ,对 无 效 scrol1l_igd 的 查询 将 返回 一 个 错误 响应 , 类 
似 下 面 这 样 : 


{ 
"_scroll id" 
"CXV1lcnlUaGVuRmVOY2g7NTsxMjg6dk1NM1kzTG1RTDJ2b25o0TDNENmJZzZZzsxMj 
k6dklNMI1kzTG1RTDJ2b25o0TDNENmJZzZzsxMZA6dkl1NMl1kzTG1RTDJ2b25oTDNEN 
mJzZzsxMjc6dkl1NM1kzTG1RTDJ2b25oTDNENmJZzZzsxMjY6dkl1NM1kzTG1RTDJ2 


b25oTDNENmJzZzSswOw=="v 
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"took" : 3, 
"timed out" 
"_shards" : { 


: false, 


"total" : 5, 
"successful" : 0， 
"failed" : 5, 
"failures" [ 【《 
"status" : 500, 
"reason" "SearchContextMissingException[No 
found for id [128]]" 
}, { 
"status" : 500, 
"reason" "SearchContextMissingException[No 
found for id [126]]" 
}, { 
"status" : 500, 
"reason" "SearchContextMissingException[No 
found for id [127]]" 
}, { 
"status" : 500, 
"reason" "SearchContextMissingException[No 
found for ia [130]]" 
}, { 
"status" : 500, 
"reason" "SearchContextMissingException[No 
found for id [129]]" 
}] 
}, 
"hits" : { 
"total" : 0, 
"max score" : 0.0, 
"hits" : [ ] 
} 
} 
当然 


























可 以 成 功 地 运用 该 方案 。 


6.8 多 词 条 过 滤器 


Elasticsearch 中 ， 


{ 
"query" : { 
"constant_s 
下 故 于 于 疙 总 到 和 
"terms" 
将 忆 二 





多 词 条 过 滤器 乍 看 是 个 非常 简单 的 过 滤器 。 使 用 最 简单 的 形式 ， 可 以 过 滤 
那些 与 给 定 的 未 经 分 析 的 词 条 之 一 匹配 的 文档 。 一 个 使 用 多 词 条 过 滤器 的 例子 如 下 : 








core" : { 
{ 
{ 


e" : [ "crime", "punishment" ] 


search 


search 


search 


search 


search 





出 
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context 


context 


context 


context 


context 


然 , 这 种 解决 方案 并 不 理想 ， 当 有 很 多 对 各 种 结果 的 随机 页 面 的 请 求 时 , 或 请 求 之 间 的 时 
间 很 难 确定 时 , 它 就 不 是 很 适合 。 但 是 , 当 你 想 获得 更 大 的 结果 集 , 如 多 个 系统 之 间 传 输 数 据 时 ， 
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} 
} 
} 
} 

} 

上 述 查 询 将 找到 title 字 有 段 与 crime 或 者 punishment 词 条 匹配 的 文档 。 多 词 条 过 滤器 的 工 
作 方 式 是 遍历 所 提供 的 词 条 ,并 查找 跟 这 些 词 条 匹配 的 文档 。 当 然 , 匹配 文档 的 标识 符 被 加 载 到 
一 个 叫 bitset 的 结构 中 并 被 缓存 起 来 。 有时， 我 们 可 能 希望 改变 此 默认 行为 。 为 此 可 以 提供 
execution 参 数 ， 设 成 以 下 所 示 的 某 个 值 。 


口 plain: 这 是 默认 方法 ， 饥 历 提供 的 所 有 词 条 ， 把 结果 存在 bitset 中 并 缓存 。 
口 fielddata: 这 个 方法 生成 词 条 过 滤器 ， 使 用 fielddata 缓 存 来 比较 词 条 。 过 滤 已 经 加 
载 到 fielddata 缓 存 中 的 字段 时 ， 此 模式 是 非常 有 效 的 。 比 如 ， 用 来 排序 、 切 面 或 者 使 









































用 索引 预 热 器 预 热 的 字段 ， 都 会 被 加 载 到 fieldaqata 缓 存 中 。 该 执行 模式 对 在 大 量词 条 
上 过 滤 非 常 有 效 。 





口 bool: 此 方法 为 每 个 词 条 生成 一 个 词 条 过 滤器 ， 并 且 把 它们 构建 成 boo1 过 滤器 。 构 建 的 
boo1 过 滤 需 本 身 不 被 缓存 ， 因 为 它 执行 那些 用 来 构建 它 的 词 条 过 滤 需 ， 而 这 些 过 滤器 已 
经 被 缓存 。 

口 and: 此 方法 跟 bool 方 法 类 似 , 只 是 Elasticsearch 构 建 and 过 滤器 而 不 是 pool 过 滤器 。 

口 or: 此 方法 跟 pool1 方 法 类 似 ， 只 是 Elasticsearch 构 建 or 过 滤 带 而 不 是 pool 过 滤器 。 


一 个 使 用 execution 参 数 的 示例 查询 如 下 所 示 : 


{ 
"query" : { 
"constant_score" : { 
"filter" : { 
"terms" 1 { 
"titler ws [EE "crime", "Punishment" ]; 
"execution" : "and" 

















词 条 查找 


我 们 讨论 多 词 条 过 滤器 不 是 因为 它 过 滤 文 档 的 能 力 , 而 是 因为 Elasticsearch 0.90.6 添 加 的 词 条 
查找 功能 。 词 条 查找 机 制 可 以 用 来 从 提供 的 源 中 加 载 词 条 ， 而 不 是 显 式 地 传人 词 条 列表 。 为 了 说 
明 它 是 如 何 工作 的 ， 创 建 一 个 新 的 索引 ， 并 索引 3 个 文档 ， 使 用 下 面 的 命令 : 


Curl -XPOST 'localhost:9200/books/book/1' -d '{ 
vid™ » 1 
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"name" : "Test book 1", 
"similar" : [ 2，3 ] 


}" 

curl -XPOST 'localhost:9200/books/book/2' -d '{ 
rid" : 2; 
"name" : "Test book 2", 
"similar" : [ 1 ] 

于 用 

curl -XPOST 'localhost:9200/books/book/3' -d '{ 
rid" 2 3， 
"name" : "Test book 3", 
"similar" : [ 1, 31] 

时 


现在 , 假设 我 们 想得到 类 似 于 标识 符 等 于 3 那 本 书 的 所 有 书 。 当 然 , 可 以 先 获取 第 3 本 书 , 得 
到 similar 字 段 的 值 ， 然 后 执行 另 一 个 查询 。 但 让 我 们 使 用 词 条 查找 功能 ;基本 上 ， 我 们 会 让 
Elasticsearch 检 索 文 档 并 加 载 similar 字 上 段 的 值 。 为 此 ， 可 以 执行 以 下 命令 : 





Curl -XGET 'localhost:9200/books/_ search?pretty' -d '{ 
"query" : { 
"filtered" : { 
"query" : { 
"match all" : {} 
Fs 
"filter" : { 
"terms" : { 
nid" : { 
"index" : "books", 
wm type wm . mn book mn 到 
nid" 2 bc 
"path" : "similar" 
}a 
"_ cache key" : "books 3 similar" 


} 
}, 
"fields" 2 [ ba "name" ] 
}' 


上 面 命令 的 响应 将 如 下 所 示 : 


"took" : 2， 

"timed out" : false, 

"_ shards" : { 
"total" : 5, 
"successful" : 5, 
"failed" : 0 

}, 

"hits" : { 
"total" : 2, 
"max score" : 1.0, 
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"hits" [ { 
"_ index" "books", 
_type" "book", 
Ed 
_score 1.0 
"fields { 
"Ian 1 
name "Test book 1" 
} 
}, { 
"_ index "books", 
_type" "book", 
Ld 3 ea 
_score 1.0 
"fields { 
"an 3, 
"name" : "Test book 3" 
} 
}] 
} 
} 
在 前 面 的 响应 中 , 你 可 以 看 到 ,我 们 得 到 了 想 要 的 书 : 标识 符 为 1 和 3 的 两 本 。 当 然 ,， 词 条 查 
找 机 制 被 高 度 优化 : 如果 信 息 存在 ， 它 将 使 用 缓存 信息 。 此 外 ，_cache_key 属 性 用 于 指定 缓存 
查找 结果 的 键 值 。 建 议 设置 该 值 ， 以 便 需 要 时 可 以 轻松 地 清除 缓存 。 当 然 _cache_key 属 性 值 在 








不 同 的 查询 中 应 该 不 同 。 
| 注意 ， 应 该 存储 _ source 字段 ， 词 条 查找 功能 才能 工作 。 ] 


1. 词 条 查找 的 查询 结构 
回忆 一 下 我 们 使 用 的 词 条 查找 过 滤器 ， 以 便 完 全 理解 要 讨论 的 查询 : 


让 ey 
: { 


"terms” 3 


nid { 
"index” : "books", 
"type" : "book", 
se I 
"path™ § Veinmilar” 
a 
"_cCache key" : "books 3_similar" 


. 
} 
我 们 用 了 一 个 简单 的 过 滤 查 询 , 有 一 个 匹配 所 有 文档 的 查询 和 一 个 多 词 条 过 滤器 。 因 为 过 滤 
器 中 把 其 他 属性 分 组 在 一 起 的 对 象 名 字 是 ia， 因 此 它 使 用 id 字段 来 过 滤 文 档 。 除 了 ia， 我 们 使 
用 以 下 属性 。 
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口 ingex: 这 指定 了 我 们 从 哪个 索引 加 载 词 条 。 在 我 们 的 例子 中 ， 是 books 索 引 。 

D type: 这 指定 了 我 们 感 兴趣 的 类 型 ， 在 我 们 例子 中 是 book 类 型 。 

D idq: 这 指定 了 应 该 从 中 读 取 词 条 列表 的 文档 的 标识 符 。 在 我 们 的 例子 中 ， 是 标识 符 为 3 
的 文档 。 
口 path: 这 指定 了 应 该 从 中 加 载 词 条 的 字段 名 ， 在 我 们 的 查询 中 是 similar 字 段 。 
并 且 还 可 以 使 用 另外 两 个 属性 。 


口 routing: 此 选项 指定 了 加 载 词 条 到 过 滤器 时 ，Elasticsearch 应 该 使 用 的 路 由 值 。 
口 cache: 此 选项 指定 了 Elasticsearch 是 否 缓存 从 加 载 文 档 生 成 的 过 滤 需 。 默 认 情 况 下 ， 它 
设置 为 Lrue， 意 味 着 Elasticsearch 将 缓存 过 滤器 。 


| 注意 当 使 用 词 条 查找 机 制 时 ， 不 考虑 execution 必 性。 ] 























2. 词 条 查找 的 缓存 设置 


Elasticsearch 人 允许 我 们 设置 词 条 查找 机 制 使 用 的 缓存 。 为 了 控制 该 缓存 ， 可 以 在 elasti 
csearch.yml 文 件 中 设置 如 下 属性 。 


口 indices.cache.filter.terms.size: 默认 为 10mbp。 指 定 了 Elasticsearch 用 在 词 条 查 
找 缓存 上 的 最 大 内 存 值 。 大 多 数 情 况 下 ， 默 认 值 已 经 足够 ， 但 如 果 指 定 加 载 非 常 大 的 数 
据 ， 你 可 以 增加 这 个 值 。 

D indices.cache.filter.terms.expire after access: 它 指定 了 缓存 项 被 最 后 一 

次 访问 后 的 最 大 失效 时 间 。 默 认 不 启用 。 

口 indices.cache.filter.terms.expire after_write: 它 指 定 了 缓存 项 被 放 到 缓存 
后 的 最 大 失效 时 间 。 默 认 不 启用 。 














6.9 小 结 


本 章 展 示 了 更 多 Elasticsearch 的 数据 分 析 能 力 。 我 们 使 用 聚合 和 切面 给 索引 中 的 数据 带 来 意 
义 ; 通过 使 用 Elasticsearch 建 议 嚣 ， 为 应 用 程序 引入 了 拼写 检查 和 自动 完成 功能 ; 通过 使 用 预 匹 
配器 ,创建 了 警报 功能 ,并且 使 用 附件 功能 把 二 进 制 文件 编 人 索引 。 我 们 对 地 理 空间 数据 进行 索 
引 和 搜索 ， 使 用 卷 动 API 有 效 获取 大 量 结 果 。 最 后 ， 使 用 词 条 查找 机 制 ， 加 快 了 提取 词 条 列表 的 
查询 过 程 。 

下 一 章 将 聚焦 Elasticsearch 集 群 以 及 如 何 处 理 它 们 。 读 者 将 看 到 什么 是 节点 发 现 ， 它 是 如 何 
使 用 的 ,以 及 如 何 改变 它 的 配置 。 读 者 将 了 解 时 光 之 门 和 恢复 模块 ,并 改变 它们 的 配置 。 也 会 看 
到 Elasticsearch 的 缓冲 区 是 什么 ， 它 们 在 哪里 使 用 ， 以 及 如 何 配置 它们 。 届 时 将 准备 一 个 高 索引 
和 高 查询 吞吐 量 的 集群 ， 并 且 将 使 用 索引 模板 和 动态 映射 。 
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上 一 章 介绍 了 更 多 Elasticsearch 的 数据 分 析 能 力 ,， 使 用 聚合 和 切面 为 索引 中 的 数据 赋予 意义 ， 
还 通过 使 用 Elasticsearch 建 议 器 为 应 用 程序 引入 了 拼写 检查 和 自动 完成 功能 。 通 过 使 用 预 匹配 器 ， 
我 们 创建 了 警报 功能 , 并 且 使 用 附件 功能 把 二 进 制 文件 编 和 索引。 我 们 索引 和 搜索 地 理 空间 数据 ， 
并 使 用 卷 动 API 有 效 获取 大 量 的 结果 。 最 后 ， 使 用 词 条 查找 机 制 ， 加 快 了 提取 词 条 列表 的 查询 过 
程 。 在 本 章 ， 你 将 学 习 以 下 内 容 : 


口 理解 节点 的 发 现 机 制 、 配 置 和 调 优 ; 

口 恢复 和 时 光 之 门 模块 的 控制 ; 

口 为 高 查询 和 高 索引 用 例 准 备 Elasticsearch ; 
口 使 用 索引 模板 和 动态 映射 。 


7.1 市 点 发 现 


启动 一 个 Elasticsearch 方 点 时 ， 该 节点 会 开始 寻找 具有 相同 集群 名 字 并 且 可 见 的 主 节点 。 如 
果 找 到 主 节 点 ， 该 节点 加 入 一 个 已 经 组 成 了 的 集群 ;如果 没有 找到 ， 该 节点 成 为 主 节 点 〈 如 果 配 
置 允 许 )。 形 成 集群 和 寻找 节点 的 过 程 称 为 发 现 。 负 责 发 现 的 模块 有 两 个 主要 目的 : 选 出 一 个 主 
节点 和 发 现 集群 中 的 新 节点 。 本 节 将 讨论 如 何 配置 和 优化 发 现 模块 。 


7.1.1 发 现 的 类 型 


默认 在 没有 安装 额外 插件 的 情况 下 ，Elasticsearch 人 允许 使 用 zen 发 现 ， 它 提供 了 多 播 和 单 播 发 
现 。 在 计算 机 网 络 术 语 中 ， 多 播 (http:Wen.wikipedia.org/wikiMulticast ) 是 指 在 单个 传输 中 将 消 
息 传 递 到 一 组 计算 机 中 。 单 播 ( http://en.wikipedia.org/wiki/Unicast ) 指 的 是 一 次 只 通过 网 络 传输 
单条 消息 到 单个 主机 上 。 


















































» 当 使 用 多 播发 现时 ，Elasticsearch 试 图 找到 所 有 能 够 接收 和 响应 多 播 消 息 的 
节点 。 如 果 使 用 单 播 方法 ， 你 需要 提供 集群 中 的 至 少 一 部 分 主机 ， 节 点 会 尝试 连 
接 到 它们 。 
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选择 多 播 还 是 单 播 , 首先 你 应 该 知道 你 的 网 络 能 否 处 理 多 播 消息 。 如 果 它 可 以 , 使 用 多 播 将 
更 简单 。 如 果 你 的 网 络 不 能 处 理 多 播 , 请 使 用 单 播发 现 。 男 一 个 使 用 单 播发 现 的 原因 是 安全 : 不 
想 任 何 节 点 误 加 入 你 的 集群 中 。 所 以 , 如果 要 运行 多 个 集群 , 或 者 开发 人 员 的 计算 机 和 集群 在 同 
一 个 网 络 中 ， 使 用 单 播 是 更 好 的 选择 。 


. 如 果 你 使 用 的 是 Linux 操 作 系统 ， 并 希望 检查 你 的 网 络 是 否 支持 多 播 ， 请 对 





























你 的 网 络 接口 (通常 是 eth0 ) 使 用 ifconfig 命 令 。 如 果 你 的 网 络 支持 多 播 ， 你 
会 从 前 面 命令 的 响应 中 看 到 MULTICAST 属 性 。 


7.1.2 主 节 点 














我 们 已 经 看 到 , 发 现 的 主要 目的 之 一 就 是 要 选择 一 个 主 节 点 ， 它 将 查看 整个 集群 。 主 节点 会 
检查 所 有 其 他 节点 ， 看 它们 是 否 有 响应 〈 其 他 节点 也 ping 主 节点 )。 主 节点 还 将 接受 想 加 入 群集 


的 新 节点 。 如 果 不 知 什么 缘故 , 主 节 点 跟 集群 断 开 连 接 了 , 其 余 节点 将 从 中 选择 一 个 新 的 主 节 点 。 
所 有 这 些 过 程 都 基于 我 们 提供 的 配置 自动 完成 。 

1. 配置 主 节点 和 数据 节点 
默认 情况 下 ，Elasticsearch 人 允许 节点 同时 成 为 主 节 点 和 数据 节点 。 但 在 特定 情况 下 ， 你 可 能 
希望 有 只 保存 数据 的 工作 节点 , 以 及 只 处 理 请 求 和 管理 集群 的 主 节 点 。 一 种 情形 是 当 你 需要 处 理 
大 量 的 数据 ， 这 时 数据 节点 应 该 尽 可 能 地 高 性 能 。 为 了 把 节点 设置 成 只 保存 数据 ， 需 要 告诉 
Elasticsearch ， 不 希望 这 些 节 点 成 为 主 节 点 。 为 此 ， 在 elasticsearch.yml 配 置 文件 中 添加 如 下 属性 : 









































node.master: false 
node.data: true 


为 设置 节点 不 保存 数据 ， 而 只 做 主 节点 ， 我 们 希望 通知 Elasticsearch 不 希望 这 些 节 点 保存 数 
据 。 为 此 ， 在 elasticsearch.yml 配 置 文件 中 添加 如 下 属性 : 








node.master: true 
node.data: false 


请 注意 ， 如 果 不 设 置 的 话 ，node .master 和 node .data 默 认 都 为 true。 但 我 们 倾向 于 在 西 
置 中 包含 它 ， 这 样 更 清晰 。 


2. 主 节点 选取 的 配置 


想象 一 下 你 创建 了 一 个 包含 10 个 节点 的 集群 。 一 切 工作 正常 ,直到 有 一 天 你 的 网 络 出 现 故障 ， 
有 三 个 节点 从 集群 中 断 开 连接 ， 但 它们 仍然 能 互相 看 见 对方 。 由 于 zen 发 现 机 制 和 主 节点 选取 的 
过 程 ， 断 开 的 三 个 节点 中 选 出 了 一 个 新 的 主 节 点 , 你 最 终 有 了 两 个 名 字 相 同 的 集群 ,各 自 都 有 一 
个 主 节 点 。 这样 的 情况 称 为 脑 裂 (split-brain )， 你 必须 尽 可 能 避免 。 当 脑 裂 发 生 时 , 你 有 两 个 (或 
更 多 ) 不 会 互相 连接 的 集群 ， 直 到 网 络 〈 或 其 他 任何 ) 问题 得 到 修复 。 








EL 
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为 了 防止 脑 裂 发 生 ，Elasticsearch 提 供 了 discovery.zen.minimum _ master_nodes 属 性 。 
该 属性 定义 的 是 为 了 形成 一 个 集群 ,有 主 节 点 资格 并 互相 连接 的 节点 的 最 小 数目 。 现 在 回 到 我 们 
的 集群 , 如 果 把 aiscovery.zen.minimum master_nodqes 属 性 设置 为 所 有 可 用 节点 个 数 加 1 的 
50% ( 在 我 们 的 例子 中 即 是 6 )， 将 只 会 有 一 个 集群 。 为 什么 呢 ? 因为 如 果 网 络 正 常 ， 我 们 将 有 10 
个 节点 ， 多 于 6 个 ， 这 些 节 点 将 成 为 一 个 集群 。3 个 节点 断 开 连接 后 ， 第 一 个 集群 仍然 在 运行 。 然 
而 ， 因 为 只 有 3 个 断 开 连接 ， 小 于 6 个 ,它们 将 无 法 选 出 一 个 新 的 主 节 点 ， 只 能 等 待 重新 连 回 原来 
的 集群 。 
































7.1.3 设置 集群 名 


如 果 我 们 不 在 elasticsearch.yml 文 件 设置 cluster .name 属 性 ，Elasticsearch 将 使 用 默认 值 : 
elasticsearch。 这 不 见得 很 好 ， 因 此 建议 你 设置 cluster .name 属 性 为 你 想 要 的 名 字 。 如 果 
你 想 在 一 个 网 络 中 运行 多 个 集群 ， 也 必须 设置 cluster .name 属 性 ， 否则 ,将 导致 不 同 集群 的 所 
有 节点 都 连接 在 一 起 。 


1. 配置 多 播 


多 播 是 zen 发 现 的 默认 方法 。 除 了 常见 的 设置 (很 快 就 会 讨论 到 ) 外 ， 我 们 还 可 以 控制 以 下 
四 个 属性 。 



































D discovery.zen.ping.multicast.group: 用 于 多 播 请 求 的 群 组 地 址 ， 默 认为 
224.2.2.4。 

D discovery.zen.ping.multicast.port: 用 于 多 播 通 信 的 端口 号 ， 默 认为 94328。 

D discovery.zen.ping.multicast.ttl: 多 播 请 求 被 认为 有 效 的 时 间 ， 默 认为 3 秒 。 

口 discovery.zen.ping.multicast.address: Elasticsearch 应 该 绑 定 的 地 址 。 默 认为 
nul1， 意 味 着 Elasticsearch 将 尝试 绑 定 到 操作 系统 可 见 的 所 有 网 络 接口 。 


要 禁用 多 播 ， 应 在 elasticsearch.yml 文 件 中 添加 discovery.zen.ping.multicast. 
enabled 属 性 ， 并 且 把 值 设 为 false。 


2. 配置 单 播 


因为 单 播 的 工作 方式 ,我 们 需要 指定 至 少 一 个 接收 单 播 消息 的 主机 ,为 此 ,在 elasticsearch.yml 
文件 中 添加 discovery .zen.ping.unicast.hosts 属 性 ,基本 上 ,我 们 应 该 在 discovery .zen. 
ping.unicast.hosts 属性 中 指定 所 有 形成 集群 的 主机 。 间 定 所 有 主机 不 是 必须 的 有 只 需要 提 
供 足 够 多 的 主机 以 保证 最 少 有 一 个 能 工作 。 如 果 和 希望 指定 192.168.2.1 、192.168.2.2 和 192.168.2.3 
主机 ， 可 以 用 下 面 的 方法 来 设置 上 述 属性 : 


discovery.zen.ping.unicast.hosts: 192.168.2.1:9300, 192.168.2.2:9300, 
192.168.2.329300 
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你 也 可 以 定义 一 个 Elasticsearch 可 以 使 用 的 端口 范围 ， 例 如 ， 从 9300 到 9399 端 口 ， 指 定 以 下 


命令 行 : 





discovery.zen.ping.unicast.hosts: 192.168.2.1:[9300-93991]， 
192.168.2.2:19300=9399], .192.168.2.3;19300=9399] 


请 注意 ， 主 机 之 间 用 逗号 隔 开 ， 并 指定 了 预计 用 于 单 播 消息 的 端口 。 





false,。 


| 使 用 单 播 时 ， 总 是 设置 discovery.zen.ping.multicast.enabled 为 
NE 


7.1.4 节点 的 ping 设 置 


除了 刚刚 讨论 的 设置 ， 还 可 以 控制 或 改变 默认 的 ping 设 置 。ping 是 一 个 节点 间 发 送 的 信和 号， 
用 来 检测 它们 是 否 还 在 运行 以 及 可 以 啊 应 。 主 节点 会 pmg 集 群 中 的 其 他 节点 ， 其 他 节点 也 会 ping 
主 节 点 。 可 以 设置 下 面 的 属性 。 




















D discovery.zen.fd.ping_interval: 该 属性 默认 为 1s (1 秒 钟 ), 指定 了 节点 互相 ping 
的 时 间 间 隔 。 

D discovery.zen.fd.ping_timeout: 该 属性 默认 为 30s ( 30 秒 钟 ), 指定 了 节点 发 送 ping 
言 息 后 等 待 响 应 的 时 间 ， 超 过 此 时 间 则 认为 对 方 节点 无 响应 。 

口 discovery.zen.fd.ping_retries: 该 属性 默认 为 3， 指 定 了 重 斌 次数， 超过 此 次 数 
则 认为 对 方 节 点 已 停止 工作 。 


如 果 你 遇 到 网 络 问题 ， 或 者 知道 你 的 节点 需要 更 多 的 时 间 来 等 待 ping 响 应 ， 可 以 把 上 面 那些 
参数 调整 为 对 你 的 部 署 有 利 的 值 。 





























7.2 时光 之 门 与 恢复 模块 


除了 我 们 的 索引 和 索引 里 面 的 数据 ，Elasticsearch 还 需要 保存 类 型 映射 和 索引 级 别 的 设置 等 
元 数据 。 此 信息 需要 被 持久 化 到 别 的 地 方 ， 这 样 就 可 以 在 群集 恢复 时 读 取 。 这 就 是 为 什么 
Elasticsearch 引 入 了 时 光 之 门 模块 。 你 可 以 把 它 当 做 一 个 集群 数据 和 元 数据 的 安全 的 避风 港 。 你 
每 次 启动 群集 , 所 有 所 需 数据 都 从 时 光 之 门 读 取 , 当 你 更 改 你 的 集群 , 它 使 用 时 光 之 门 模块 保存 。 



































7.2.1 时 光 之 门 


为 了 设置 我 们 和 希望 使 用 的 时 光 之 门类 型 ， 需 要 在 elasticsearch.yml 配 置 文件 中 添加 gatewav . 
tvpe 属 性， 并 设置 为 1ocal。 目 前 ，Elasticsearch 推 荐 使 用 本 地 时 光 之 门类 型 ( gateway .type 
设 为 1ocal )， 这 也 是 默认 值 。 过 去 有 其 他 时 光 之 门类 型 ( 比如 fs、hdafs 和 s3 )， 但 已 被 弃 用 ， 
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将 在 未 来 的 版 本 中 删除 。 因此 跳 过 对 它们 的 讨论 。 默认 的 本 地 时 光 之 门类 型 在 本 地 文件 系统 中 存 
储 索 引 和 它们 的 元 数据 。 跟 其 他 时 光 之 门类 型 相 比 ， 这 种 的 写 操作 不 是 异步 的 。 所 以 ， 每 当 
写 操作 成 功 ， 都 可 以 确保 数据 已 经 被 写 信 了 gateway (也 就 是 说 ， 它 被 索引 或 存储 在 事务 日 
志 中 )。 














7.2.2 ”恢复 控制 


除了 选择 时 光 之 门类 型 以 外 ，Elasticsearch 人 允许 配置 何 时 启动 最 初 的 恢复 过 程 。 恢 复 是 初始 
化 所 有 分 片 和 副本 的 过 程 ， 从 事务 日 志 中 读 取 所 有 数据 ， 并 应 用 到 分 片上 。 基 本 上 ， 这 是 启动 
Elasticsearch 所 需 的 一 个 过 程 。 


假设 有 一 个 由 10 个 Elasticsearch 节 点 组 成 的 集群 。 应 该 通知 Elasticsearch 我 们 的 节点 数目 ， 设 
置 gateway .expected_nodes 属 性 为 10。 我 们 告知 Elasticsearch 有 资格 来 保存 数据 且 可 以 被 选 为 
主 节 点 的 期 望 节 点 数目 。 集 群 中 节点 的 数目 等 于 gateway.expected_nodes 属 性 值 时 ， 
Elasticsearch 将 立即 开始 恢复 过 程 。 


也 可 以 在 8 个 节点 之 后 开始 恢复 ， 设 置 gateway.recover_after_nodqes 属 性 为 8。 可 以 将 
它 设置 为 任何 我 们 想 要 的 值 , 但 应 该 把 它 设置 为 一 个 值 以 确保 集群 状态 快照 的 最 新 版 本 可 用 , 一 
般 在 大 多 数 节 点 可 用 时 开始 恢复 。 


然而 ， 还 有 一 件 事 : 我 们 希望 gateway 在 集群 形成 后 的 10 分 钟 以 后 开始 恢复 ， 因 此 设置 
gateway.recover_after_ time 属性 为 1om。 这 个 属性 告 诉 gateway 模 块 在 gateway. 
recover_after_nodes 属 性 指定 数目 的 节点 形成 集群 之 后 , 需要 等 待 多 长 时 间 再 开始 恢复 。 如 
果 我 们 知道 网 络 很 慢 ， 想 让 节点 之 间 的 通信 变 得 稳定 时 ， 可 能 需要 这 样 做 。 


上 述 属性 值 都 应 该 设置 在 elasticsearch.yml 配 置 文件 中 ， 如 果 想 设置 上 面 的 值 , 则 最 终 在 文件 
中 得 到 下 面 的 片段 : 













































































gateway.recover_after nodes: 8 
gateway.recover_after time: 10m 
gateway .expected nodes: 10 


额外 的 gateway 恢 复 选 项 


除了 提 到 的 选项 ，Elasticsearch 还 允许 做 一 些 控制 。 额 外 的 选项 如 下 。 





口 gateway.recover_after master nodes: 这 个 属性 跟 gateway_recover_ after_ 
nodes 属 性 类 似 。 它 指定 了 多 少 个 有 资格 成 为 主 节点 的 节点 在 集群 中 出 现时 才 开 始 启 动 恢 
复 ， 而 不 是 指定 所 肌 点 。 

口 gateway.recover_after_dqata_nodes : 这 个 属性 也 跟 gateway_recover_after_ 


nodes 属 性 类 似 。 它 指定 了 多 少 个 数据 节点 在 集群 中 出 现时 才 开 始 启 动 恢复 。 
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D gateway .expected master _ nodes: 这 个 属性 跟 gateway .expected_nodes 属 性 类 
似 ， 它 指定 了 希望 多 少 个 有 资格 成 为 主 节点 的 节点 出 现 ， 而 不 是 所 有 的 节点 。 
D gateway .expected_ data nodes: 这 个 属性 也 跟 gateway . expected nodes 属性 类 


似 ， 它 指定 了 你 期 望 出 现在 集群 中 的 数据 节点 的 个 数 。 




















7.3 ”为 高 查询 和 高 索引 吞吐 量 准备 Elasticsearch 集群 


直到 现在 ， 我 们 谈 的 主要 是 Elasticsearch 在 处 理 查询 和 索引 数据 方面 不 同 的 功能 。 在 这 里 ， 
我 们 想 简 要 谈 谈 为 高 查询 和 高 索引 大 叶 量 准备 Elasticsearch 和 集群。 本 节 的 开头 先 提 到 一 些 还 没 谈 
到 的 Elasticsearch 功 能 ， 它 们 对 优化 集群 很 重要 。 我 们 知道 ， 这 是 一 个 非常 简要 的 介绍 ， 但 我 们 
会 试 着 只 介绍 那些 我 们 认为 重要 的 内 容 。 之 后 , 会 就 如 何 调整 这 些 功能 给 出 一 般 性 建议 , 以 及 注 
意 事项 。 希望 通 过 阅读 这 一 节 ， 你 能 够 在 调 优 集 群 时 知道 要 注意 的 事项 。 









































7.3.1 过 滤器 缓存 


过 滤器 缓存 负责 缓存 查询 中 使 用 到 的 过 滤器 。 你 可 以 从 缓存 中 飞快 地 获取 信息 。 如 果 设 置 得 
当 ， 它 将 有 效 地 提高 查询 速度 ， 尤 其 是 那些 包含 已 经 执行 过 的 过 滤器 的 查询 。 


Elasticsearch 包 含 两 种 类 型 的 过 滤器 缓存 : 节点 过 滤器 缓存 (默认 ) 和 索引 过 滤器 缓存 。 节 
点 过 滤器 缓存 被 分 配 在 节点 上 的 所 有 索引 共享 ， 可 以 配置 成 使 用 特定 大 小 的 内 存 ， 或 分 配给 
Elasticsearch 总 内 存 的 百分比 。 为 了 设置 这 个 值 ， 应 该 包含 ijndices .cache.filter.size 这 个 
节点 属性 值 ， 并 设置 成 需要 的 大 小 或 百分比 。 

第 二 种 过 滤器 缓存 基于 索引 级 别 。 一 般 来 说 ,你 应 该 使 用 节点 级 别 的 过 滤器 缓存 ， 因 为 很 难 
预测 每 个 索引 的 最 终 缓存 大 小 , 通常 也 不 知道 最 终 节点 上 会 有 多 少 索引 。 我 们 将 省 略 对 索引 级 别 
过 滤器 缓存 的 进一步 解释 ， 关 于 它 的 更 多 信息 可 以 在 官方 文档 找到 ， 或 者 我 们 的 书 Wasterzmg 


ElasticSearch, 


























7.3.2 ”字段 数据 缓存 和 断路 器 


字段 数据 缓存 是 Elasticsearch 缓 存 的 一 部 分 ， 主 要 用 于 当 查 询 对 字段 执行 排序 或 切面 时 。 
Elasticsearch 把 用 于 该 字段 的 数据 加 载 到 内 存 ， 以 便 基于 每 个 文档 快速 访问 这 些 值 。 构 建 这 些 字 
段 数据 缓存 是 昂贵 的 ， 所 以 最 好 有 足够 的 内 存 ， 以 便 缓 存 中 的 数据 一 旦 加 载 就 留 在 缓存 中 。 


























讨论 过 。 


| 你 也 可 以 把 字段 配置 成 使 用 doc 值 ， 而 不 是 字段 数据 缓存 。doc 值 在 2.2 节 中 


图 灵 社 区 会 员 打 顺 顺 (lvshun@live.cn) 专 享 尊重 版 权 





7.3 为 高 查询 和 高 索引 吞吐 量 准备 Elasticsearch 集群 239 





允许 用 于 字段 数据 缓存 的 内 存 大 小 可 以 用 indices .fielddqata.cache.size 属 性 来 控制 。 
可 以 把 它 设置 为 绝对 值 (例如 2 GB ) 或 者 分 配给 Elasticsearch 实 例 的 内 存 百 分 比 (例如 40% )。 请 
注意 ， 这 些 值 是 节点 级 别 ， 而 不 是 索引 级 别 的 。 为 其 他 条 目 丢 弃 部 分 缓存 会 导致 查询 性 能 变 差 ， 
所 以 建议 要 有 足够 的 物理 内 存 。 此 外 请 记 住 ， 默认 情况 下 ,字段 数据 缓存 的 大 小 是 无 限 的 ， 所 以 
如 果 我 们 不 小 心 ， 会 导致 集群 的 内 存 爆炸 。 


我 们 还 可 以 控制 字段 数据 缓存 的 过 期 时 间 , 同样 , 默认 情况 下 字段 数据 缓存 永远 不 过 期 。 可 
以 使 用 indices .fielddata.cache. expire 属 性 来 控制 ,将 其 设置 为 最 大 的 不 活动 时 间 .例如 ， 
将 它 设 置 为 10m 将 导致 缓存 不 活动 10 分 钟 后 过 期 。 记 住 重建 字段 数据 缓存 是 非常 昂贵 的 ， 一 般 情 
况 下 ， 你 不 应 该 设置 过 期 时 间 。 

字段 数据 断路 器 ( field data circuit breaker ) 允许 估计 一 个 字段 加 载 到 缓存 所 需 的 内 存 。 利 用 
它 ， 可 以 通过 抛 出 异常 来 防止 一 些 字 段 加 载 到 内 存 中 。Elasticsearcn 有 两 个 属性 来 控制 断路 器 的 
行为 。 第 一 个 是 indices .fielddata.breaker.1imit 属 性 ， 默 认 值 为 80%8， 可 以 使 用 集群 的 
更 新 设置 API 来 动态 地 修改 它 。 这 意味 着 ， 当 查询 导致 加 载 字段 的 值 所 需 的 内 存 超过 了 
Elasticsearch 进 程 中 可 用 堆 内 存 的 80% 时 , 将 引发 一 个 异常 ,第 二 个 属性 是 indices .fielddqata. 
breaker .overhead， 默 认为 1.03， 它 定义 了 用 来 与 原始 估计 相 乘 的 一 个 常量 。 



























































7.3.3 ”存储 模块 


Elasticsearch 中 的 存储 模块 负责 控制 如 何 写 入 索引 数据 。 我 们 的 索引 可 以 完全 存储 在 内 存 或 
者 一 个 持久 化 磁盘 中 。 纯 内 存 的 索引 极 快 但 不 稳定 ， 而 基于 磁盘 的 索引 慢 一 些 ， 但 可 容忍 故障 。 


利用 inaqex. store.type 属 性 ， 可 以 指定 使 用 哪 种 存储 类 型 ， 可 用 的 选项 包括 下 面 这 些 。 


口 simplefs: 这 是 基于 磁盘 的 存储 ,使 用 随机 文件 来 访问 索引 文件 。 它 对 并 发 访问 的 性 能 

不 够 好 ， 因 此 不 建议 在 生产 环境 使 用 。 

口 niofs: 这 是 第 二 个 基于 磁盘 的 索引 存储 , 使 用 Java NIO 类 来 访问 索引 文件 。 它 在 高 并 发 环 

境 提 供 了 非常 好 的 性 能 , 但 不 建议 在 Windows 平 台 使 用 ， 因 为 Java 在 这 个 平台 的 实现 有 bug。 

D mmapfs: 这 是 另 一 个 基于 磁盘 的 存储 ， 它 在 内 存 中 映射 索引 文件 (对 于 mmap ， 请 参阅 
http:/en.wikipedia.org/wikiMmap )。 这 是 64 位 系统 下 的 默认 存储 ， 因 为 为 索引 文件 提供 了 
操作 系统 级 别 的 缓存 ， 因 此 它 的 读 操作 更 快 。 你 需要 确保 有 足够 数量 的 虚拟 地 址 空间 ， 
但 在 64 位 系统 下 ， 这 不 是 问题 。 

口 memory: 这 将 把 索引 存在 内 存 中 。 请 记 住 你 需要 足够 的 物理 内 存 来 存储 所 有 的 文档 ， 否 

则 Elasticsearch 将 失败 。 
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7.3.4 索引 缓冲 和 刷新 率 


当 说 到 索引 时 ，Elasticsearch 允许 你 为 索引 设置 最 大 的 内 存 数 。indqices .memorvy . 
index_buffer_size 属 性 可 以 控制 在 一 个 节点 上 ， 所 有 索引 的 分 片 共 拥有 的 最 大 内 存 大 小 (或 
者 最 大 堆 内 存 的 百分比 )。 例如， 把 该 属性 设置 为 20%， 将 告诉 Elasticsearch 提 供 最 大 堆 大 小 20% 
的 内 存 给 索引 缓冲 。 


此 外 ， 还 有 个 jndices.memory.min shard index buffer_ size 属性 ， 默 认为 4mp， 介 
许 为 每 个 分 片 设置 最 小 索引 缓冲 。 


索引 刷新 率 


有 关 索 引 的 最 后 一 件 事 是 index.refresh_interval 属 性 ， 它 指定 在 索引 上 ， 默 认为 1s (1 
秒 钟 )， 指 定 了 索引 搜索 器 对 象 刷 新 的 频率 ， 基 本 上 意味 着 数据 视图 刷新 的 频率 。 刷 新 率 越 低 ， 
文档 对 搜索 操作 可 视 的 时 间 越 短 ， 也 意味 着 Elasticsearch 将 需要 利用 更 多 资源 来 刷新 索引 视图 ， 
此 索引 和 搜索 操作 将 会 变 慢 。 


| 竺 对 庞大 的 批量 索引 ， 例 如 ， 当 对 数据 重建 索引 时 ， 建 议 在 索引 阶段 把 | 









































index.refresh interval 属 性 设 为 -1。 


7.3.5 ”线程 池 的 配置 
Elasticsearch 使 用 多 个 池 来 控制 线程 的 处 理 ， 以 及 控制 用 户 请 求 占用 多 少 内 存 消耗 。 





Java 虚 拟 机 允许 应 用 程序 使 用 多 线程 并 行 地 运行 程序 的 多 个 分 支 。 有 关 Java 线 
~> 程 的 更 多 信息 ， 请 参阅 http://docs.oracle.com/javase/7/docs/apijava/lang/Thread.html。 





我 们 尤其 感 兴趣 的 是 Elasticsearch 公 开 的 如 下 线程 池 类 型 。 


口 cache: 这 是 无 限制 的 线程 池 ， 为 每 个 传人 的 请 求 创建 一 个 线程 。 
口 fixed: 这 是 一 个 有 着 固定 大 小 的 线程 池 ， 大 小 由 size 属 性 指定 ， 人 允许 你 指定 一 个 队列 
(使 用 queue_size 属 性 指定 ) 用 来 保存 请 求 ， 直 到 有 一 个 空闲 的 线程 来 执行 请 求 。 如 果 
Elasticsearch 无 法 把 请 求 放 到 队列 中 〈 队列 满 了 )， 该 请 求 将 被 拒绝 。 


有 很 多 线程 池 ( 可 以 使 用 type 属 性 指定 要 配置 的 线程 类 型 )， 然 而 ， 对 于 性 能 来 说 ， 最 重要 
的 是 下 面 几 个 。 
口 index: 此 线程 池 用 于 索引 和 删除 操作 。 它 的 类 型 默认 为 fixedq，size 软 认为 可 用 处 理 
器 的 数量 ， 队 列 的 size 默 认为 300。 
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口 search: 此 线程 池 用 于 搜索 和 计数 请 求 。 它 的 类 型 默认 为 fixeda，size 默 认为 可 用 处 理 
器 的 数量 乘 以 3 ， 队 列 的 size 默 认为 1000。 
口 suggest: 此 线程 池 用 于 建议 器 请 求 。 它 的 类 型 默认 为 fixed，size 默 认为 可 用 处 理 器 
的 数量 ， 队 列 的 size 默 认为 1000。 
口 get: 此 线程 池 用 于 实时 的 GET 请 求 。 它 的 类 型 默认 为 fixeda，size 默 认为 可 用 处 理 器 的 
数量 ， 队 列 的 size 默 认为 1000。 
口 bulk: 你 可 以 猜 到 ， 此 线程 池 用 于 批量 操作 。 它 的 类 型 默认 为 fixeda，size 默 认为 可 用 
处 理 器 的 数量 ， 队 列 的 size 默 认为 50。 
口 percolate: 此 线程 池 用 于 预 匹配 器 操作 。 它 的 类 型 默认 为 fixed，size 默 认为 可 用 处 

理 器 的 数量 ， 队 列 的 size 默 认为 1000。 

举 个 例子 ， 把 用 于 索引 操作 的 线程 池 配 置 成 tixedq 类 型 ， 大 小 为 100， 队 列 大 小 为 300， 我 们 

将 在 elasticsearch.yml 配 置 文件 中 设置 如 下 属性 : 


threadpool .index.type: fixed 
threadpool.index.size: 100 
threadpool.index.queue_ size: 500 


记 住 ， 线 程 池 的 配置 可 以 使 用 集群 的 更 新 API 来 更 新 ， 如 下 所 示 : 


Curl -XPUT '‘'localhost:9200/ cluster/settings' -d '{ 
"transient" : { 
"threadpool.index.type" : "fixed", 
"threadpool .index.size" : 100, 
"threadpool.index.queue size" : 500 
} 
Se 


7.3.6 ”结合 起 来 ， 一 些 通用 建议 

现在 ， 我 们 知道 了 Elasticsearch 所 公开 的 缓存 和 缓冲 区 ， 可 以 尝试 结合 这 些 知识 来 配置 一 个 
高 索引 和 查询 吞吐 量 的 集群 。 接 下 来 的 两 个 小 节 将 讨论 在 设置 集群 时 , 什么 可 以 在 默认 配置 中 更 
改 ， 什 么 是 要 注意 的 。 

在 讨论 Elasticsearch 特 定 配置 相关 的 所 有 事情 之 前 ， 应 该 记 住 ， 必 须 给 予 Elasticsearch 足 够 的 
内 存 ， 而 且 是 物理 内 存 。 一 般 来 说 ， 运 行 Elasticsearch 的 JVM 进 程 不 应 该 超过 可 用 内 存 的 50% 或 
60%， 这 样 做 是 因为 要 留 一 些 可 用 内 存 给 操作 系统 以 及 操作 系统 的 IO 缓存 。 

然而 ， 需 要 记 住 ，$0% 到 60% 不 一 定 总 是 对 的 。 你 可 以 想象 一 个 有 256 GB 内 存 的 节点 ， 在 节 
点 上 有 个 总 共 30 GB 的 索引 ， 在 这 种 情况 下 ， 即 使 分 配 多 于 60% 的 物理 内 存 给 Elasticsearch ， 也 会 
给 操作 系统 留 下 足够 的 内 存 。 另 外 , 把 xmx 和 xms 参 数 设 置 为 相同 的 值 以 避免 JVM 堆 的 大 小 调整 ， 
也 是 个 好 主意 。 

当 优 化 你 的 系统 时 ， 记 得 有 一 个 在 相同 环境 可 以 反复 跑 的 性 能 测试 。 一 旦 你 做 出 更 改 ， 你 
需要 看 到 它 是 如 何 影 响 整 体 性 能 的 。 此 外 ，Elasticsearch 可 扩展 ， 正 因为 此 ， 有 时 最 好 在 单机 上 
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做 一 个 简单 的 性 能 测试 ， 看 看 性 能 如 何 ， 可 以 从 中 得 到 什么 。 这 样 的 一 些 观察 是 进一步 调 优 的 
好 起 点 。 

在 继续 之 前 ,注意 我 们 不 能 给 你 高 索引 高 查询 吞吐 量 的 秘方 ,因为 每 个 部 署 都 是 不 同 的 。 因 
此 ， 我 们 将 只 讨论 你 在 调 优 时 应 该 注意 什么 。 如 果 你 对 这 样 的 用 例 感 兴趣 ， 可 以 访问 博客 
http://blog.sematext.com， 有 些 作者 会 写 一 些 关 于 性 能 测试 的 文章 。 


1. 选择 正确 的 存储 


当然 , 除了 已 经 谈 过 的 物理 内 存 外 ， 应 该 选择 正确 的 存储 实现 。 一 般 来 说 ， 如 果 运 行 的 是 64 
位 操作 系统 ， 你 应 该 选择 mmapfs。 如 果 没 有 运行 64 位 操作 系统 ， 为 UNIX 系 统 选择 niofs， 为 
Windows 系 统 选择 simplefs。 如 果 你 可 以 容忍 一 个 易 失 的 存储 ， 但 希望 它 非常 快 ， 可 以 看 看 
memory 存 储 ， 它 会 给 你 最 好 的 索引 访问 性 能 ， 但 需要 足够 的 内 存 来 处 理 所 有 索引 文件 、 索 引 和 
查询 。 


2. 索引 刷新 率 


应 该 注意 的 第 二 件 事 是 索引 刷新 率 。 我 们 知道 刷新 率 指定 文档 多 快 可 以 对 搜索 操作 可 见 。 等 
式 非 常 简单 : 刷新 率 越 快 ,查询 越 慢 ,索引 吞吐 量 越 低 。 如 果 我 们 允许 有 一 个 较 慢 的 刷新 率 ， 如 
10s 或 30s, 设置 它 是 不 错 的 。 这 使 得 Elasticsearch 承 受 的 压力 更 少 ， 因 为 内 部 对 象 重 新 打开 的 频率 
更 低 ， 因 此 ， 将 有 更 多 的 资源 用 于 索引 和 查询 。 


3. 优化 线程 池 

强烈 建议 调整 默认 线程 池 , 尤其 是 查询 操作 。 在 性 能 测试 之 后 , 你 通常 看 到 集群 上 的 查询 不 
堪 重 负 ， 这 时 应 该 开始 拒绝 请 求 。 我 们 认为 在 大 多 数 情况 下 ， 最 好 是 立刻 拒绝 该 请 求 ， 而 不 是 把 
它 放 到 队列 并 强制 应 用 程序 等 竺 很 长 时 间 请 求 处 理 。 我 们 真 的 很 想 给 你 一 个 准确 的 数字 , 但 这 仍 
然 在 很 大 程度 上 取决 于 你 的 部 署 ， 给 不 了 通用 的 建议 。 

4. 优化 合并 过 程 

合并 过 程 同 样 在 很 大 程度 上 取决 于 你 的 用 例 ， 以 及 若干 因素 , 例如 是 否 正在 索引 、 你 添加 了 
多 少数 据 以 及 做 这 些 操作 的 频率 。 一般 来 说 , 记 住 查询 多 个 段 跟 查 询 数 量 更 少 的 段 相 比 更 慢 。 但 
是 ， 想 要 段 的 数目 更 少 ， 你 需要 付出 更 多 的 合并 代价 。 

2.5 方 讨论 过 段 合 并 。 我 们 还 提 到 了 调节 ， 它 允许 限制 VO 操作 。 
通常 来 说 ， 如 果 你 想 查询 更 快 , 应 该 以 索引 中 更 少 的 段 为 目标 。 如 果 想 索引 更 快 ， 应 该 有 更 


多 的 段 。 如 果 你 想 兼 具 两 者 ， 就 要 找到 两 者 之 间 的 黄金 点 ， 让 合并 不 会 太 频繁 但 又 不 会 导致 大 量 
的 段 。 使 用 并 行 合 并 调度 器 并 调整 默认 调节 值 ， 使 WO 子 系统 不 会 被 合并 淹没 。 
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5. 字段 数据 缓存 和 断路 器 


默认 情况 下 ，Elasticsearch 中 的 字段 数据 缓存 是 无 限 的 。 这 很 危险 ， 尤 其 在 很 多 字段 上 使 用 
切面 或 排序 时 。 如 果 字 段 基数 很 高 ， 你 可 能 会 遇 到 更 多 的 麻烦 ， 麻 烦 的 意思 是 说 你 可 能 会 内 存 
不 足 。 


我 们 有 两 个 不 同 因子 可 以 调节 , 来 确保 不 会 遇 到 内 存 不 足 错 误 。 首 先 , 可 以 限制 字段 数据 组 
存 的 大 小 。 其 次 是 断路 器 ,通过 它 可 以 很 容易 地 配置 成 在 加 载 过 多 数据 时 抛 出 一 个 异常 。 两 者 结 
合 可 以 确保 我 们 不 会 遇 到 内 存 问题 。 


然而 ， 也 应 该 记 住 ， 当 数据 字段 缓存 的 大 小 不 足以 处 理 切 面 或 排序 请 求 时 ，Elasticsearch 将 
从 中 移 除数 据 。 这 将 影响 查询 性 能 ， 因 为 加 载 字段 数据 信息 是 低 效 的 。 不 过 , 我 们 认为 宁愿 让 查 
询 慢 ， 也 不 能 由 于 内 存 不 足 错误 而 导致 集群 不 工作 。 

6. 索引 的 内 存 缓冲 区 

请 记 住 , 用 于 索引 缓冲 区 的 可 用 内 存 越 多 ( indices .memorvy.inadex_buffer_size 属 性 )， 
Elasticsearch 可 以 在 内 存 中 保存 的 文档 也 越 多 。 但 是 , 我 们 当然 不 想 Elasticsearch 占 用 100% 的 可 用 
内 存 。 默 认 情 况 下 ， 该 属性 被 设置 为 10%， 但 如 果真 的 需要 更 高 的 索引 比例 ， 你 可 以 提高 这 个 百 
分 比 。 我 们 见 过 一 些 关注 数据 索引 的 集群 ， 把 该 属性 设 为 30%， 确 实 是 有 帮助 的 。 

7. 优化 事务 日 志 


我 们 还 没 讨论 到 ， 但 Elasticsearch 有 个 内 部 模块 称 为 translog ( http://www.elasticsearch.org/ 
guide/en/elasticsearch/reference/current/index-modules-translog.html )。 它 是 分 片上 的 结构 ， 为 预 写 
日 志 (http://en.wikipedia.org/wiki/Write-ahead logging ) 服务 。 


基本 上 , 它 人 允许 Elasticsearch 为 GET 操 作 公 开 最 新 的 更 新 ， 确 保 数据 持久 性 , 并 优化 对 Lucene 
索引 的 写 和 人。 


默认 情况 下 ，Elasticsearch 在 事务 日 志 中 保存 最 多 5000 次 操作 ， 同 时 最 大 不 超过 200 mb。 但 如 
果 想 要 更 高 的 索引 吞吐 量 , 又 可 以 承担 数据 对 搜索 操作 不 可 见 的 时 间 更 长 ,就 可 以 提高 这 个 默认 值 。 
通过 indqex.translog.flush thresholdq_ops 和 index.translog.flush threshold size 
属性 〈 两 者 都 是 索引 上 的 设置 ， 可 以 用 Elasticsearch API 实 时 更 新 )， 可 以 设置 保存 在 事务 日 志 中 的 
最 大 操作 数 和 最 大 的 大 小 。 我 们 见 过 一 些 部 署 把 这 个 属性 值 设 成 默认 值 的 10 倍 。 

要 记 住 一 件 事 ， 如 果 发 生 故 障 ， 对 于 有 更 大 事务 日 志 的 分 片 ， 其 初始 化 当然 也 更 慢 ， 因 为 
Elasticsearch 需 要 在 分 片 可 用 之 前 处 理事 务 日 志 中 的 所 有 信息 。 

8. 牢记 于 心 

当然 ， 前 面 提 到 的 因素 并 非 全 部 。 你 应 该 监视 Elasticsearch 集 群 并 作出 相应 的 反应 。 如 果 你 





























































































































图 灵 社 区 会 员 打 顺 顺 (lvshun@live.cn) 专 享 尊重 版 权 








244 第 7 章 深入 Elasticsearch 集群 





看 到 索引 中 的 段 开 始 增长 ， 而 你 不 想 这 样 ， 请 调整 合并 政策 。 当 你 看 到 合并 使 用 过 多 的 IO 资源 ， 
并 影响 了 整体 性 能 ， 请 调整 你 的 调节 。 只 是 要 记 住 ， 调 整 不 是 一 次 性 的 ; 数据 会 增加 ,查询 数目 
也 会 增加 ， 你 要 不 断 适 配 它 。 


























7.4 模板 和 动态 模板 


在 2.2 节 中 ， 我 们 学 过 映射 、 如 何 创建 它们 以 及 类 型 确定 机 制 是 如 何 工作 的 。 现 在 将 进入 更 
高 级 的 主题 ， 如 何 为 新 的 索引 动态 地 创建 映射 以 及 如 何在 模板 中 应 用 一 些 逻 辑 。 











7.4.1 模板 


我 们 在 前 面 看 到 过 ,索引 配置 ,特别 是 映射 ， 可 以 是 很 复杂 的 野兽 。 如 果 有 可 能 定义 一 个 或 
多 个 映射 ， 用 在 每 个 新 创建 的 索引 上 ， 而 不 需要 每 次 创建 索引 时 都 发 送 它们 ， 那 就 太 好 了 。 
Elasticsearch 创 作者 预见 到 这 点 ， 并 实现 了 一 个 叫 索 引 模 板 〈index templates ) 的 功能 。 每 个 模板 
定义 了 一 个 模式 ,用 来 比较 新 创建 索引 的 名 称 。 当 两 者 匹配 , 在 模板 中 定义 的 值 复制 到 索引 的 结 
构 定 义 中 。 当 多 个 模板 匹配 新 创建 索引 的 名 称 时 ， 所 有 模板 都 会 被 应 用 ,后 应 用 的 模板 中 的 值 将 
履 盖 先 应 用 的 模板 中 定义 的 值 。 这 非常 方便 ， 因 为 可 以 在 通用 模板 中 定义 一 些 党 用 设置 ,然后 在 
专 有 模板 中 修改 它们 。 此 外 ,还 有 个 order 参 数 ， 可 以 强制 所 需 模板 的 顺序 。 你 可 以 把 模板 想象 
成 一 个 动态 映射 ,但 它 不 是 应 用 到 文档 中 的 类 型 ， 而 是 应 用 到 索引 。 


1. 模板 的 一 个 例子 


来 看 一 个 真实 的 模板 例子 。 假设 要 创建 许多 索引 ， 并且 不 希望 在 索引 中 存储 源 文 档 ， 以 便 让 
索引 更 小 ， 而 且 也 不 需要 任何 副本 。 可 以 创建 一 个 模板 来 满足 这 个 需求 ， 通 过 使 用 Elasticsearch 
的 RESTAPI， 发 送 如 下 命令 : 


curl -XPUT http://localhost:9200/ template/main template?pretty -d '{ 
"template™ : "*", 
"order™" : 1, 
"settings" : { 
"index.number of replicas" : 0 


















































}, 
"mappings" : { 
" default " : { 
"_source" : { 
"enabled" : false 
} 
} 
} 
和 


从 现在 开始 ， 所 有 创建 的 索引 都 将 没有 副本 ， 也 没有 存储 源 文档 。 这 是 因为 Lemplate 参 数 
值 疫 成 了 * ， 意 味 着 匹配 所 有 索引 名 。 注 意 例子 中 的 _qefault_ 类 型 名 字 ， 这 是 一 个 特殊 的 类 型 
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名 ,表明 当前 规则 应 适用 于 所 有 的 文档 类 型 。 第 二 个 有 趣 的 事情 是 orger 参 数 。 使 用 如 下 命令 定 
义 第 二 个 模板 : 
Curl -XPUT http://localhost:9200/ template/ha template?pretty -dd '{ 
"template" : "ha _*", 
"order" : 10, 
"settings" : { 
"index.number of replicas" : 5 
} 
} 1 
执行 上 述 命令 后 ， 除 了 名 字 以 na_ 开 头 ， 所 有 其 他 新 索引 将 有 相同 的 行为 。 两 个 模板 都 被 应 
用 在 这 些 索引 中 。 首 先 应 用 ordaer 值 更 小 的 模板 ， 然 后 下 一 个 模板 覆盖 副本 的 设置 。 所 以 ， 名 字 
以 ha_ 开 头 的 索引 将 有 5 个 副本 ， 并 禁用 源 文 档 的 存储 。 


2. 在 文件 中 存储 模板 


模板 也 可 以 存储 在 文件 中 。 默 认 情 况 下 ， 文 件 应 该 放 在 config/templates 目 录 中 。 例 如 ， 
ha_template 模 板 应 该 放 在 config/templates/ha_template.json 文 件 中 ， 内 容 如 下 所 示 : 








{ 
"ha_template" : { 
"template" : "ha_*", 
"order" : 10, 
"settings" : { 
"index.number_of_ replicas" : 5 
} 
} 
} 


注意 这 个 JSON 的 结构 有 点 不 同 ， 它 使 用 模板 名 字 作 为 主 对 象 的 键 。 另 外 很 重要 的 是 ， 模 板 
必须 放 在 Elasticsearch 的 每 个 实例 中 。 此 外 ， 文 件 中 定义 的 模板 不 可 用 在 REST API 调 用 中 。 








7.4.2 ”动态 模板 


有 时 ,我 们 想 依 赖 一 个 字段 名 称 和 类 型 来 定义 一 个 类 型 。 这 是 动态 模板 发 挥 作 用 的 地 方 。 动 
态 模 板 跟 通常 的 映射 相似 , 但 每 个 模板 都 定义 了 它 的 模式 ,并 将 其 应 用 于 文档 的 字段 名 称 。 如 果 
一 个 字段 名 称 与 模式 匹配 ， 则 使 用 该 模板 。 看 看 下 面 的 示例 : 


{ 
"mappings" : { 
"rarticle" ; { 
"dynamic templates" : [ 
{ 
"template test": { 
"matemn 3 
"mapping" : { 
"index" : "analyzed", 
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"fielLde™ 3 4 
"str": {"type": "{dynamic type}", 
"index": "not_analyzed" } 


在 前 面 的 例子 中 ,我 们 为 article 类 型 定义 了 一 个 映射 。 在 这 个 映射 中 , 我 们 只 有 一 个 动态 
模板 ， 名 为 template_test。 由 于 match 属 性 设置 成 了 星 号 ， 这 个 模板 将 应 用 到 输入 文档 的 每 
个 字段 上 。 每 个 字段 都 将 被 视 为 多 字段 ， 由 原始 字段 名 字 ( 比如 ，title ) 和 第 二 个 以 str 作 为 
后 级 的 字段 ( 比如 ，title.str )。 第 一 个 字段 的 类 型 由 Elasticsearch 决 定 ( {dynamic_type} 类 
型 )， 第 二 个 字段 将 是 一 个 字符 串 〈 因 为 string 类 型 )。 

1. 匹配 模式 

我 们 有 以 下 两 种 方式 定义 匹配 模式 。 

口 match: 如 果 字 段 名 与 模式 相 匹配 的 话 ， 则 使 用 该 模板 ( 这 是 我 们 例子 中 使 用 的 类 型 )。 
口 unmatch: 如 果 字 段 名 与 模式 不 匹配 ， 则 使 用 该 模板 。 


默认 情况 下 ， 该 模式 非常 简单 ， 并 且 使 用 glob 模 式 ， 可 以 使 用 natch_pattern=regexp 来 
修改 。 添 加 此 属性 后 ， 可 以 使 用 正则 表达 式 提供 的 所 有 魔法 来 匹配 或 不 匹配 模式 。 


有 些 变 种 ， 比 如 path_match 和 path_unmatch， 可 以 用 来 匹配 般 套 文档 的 名 字 。 







































































2. 字段 定义 
当 写 入 一 个 目标 字段 定义 时 ， 可 以 使 用 下 面 的 变量 。 


口 {name}: 输入 文档 中 找到 的 原始 字段 的 名 字 。 
口 {dynamic_type}: 原始 文档 确定 的 类 型 。 











一 


请 注意 ，Elasticsearch 根 据 定义 的 顺序 检查 模板 ， 并 应 用 第 一 个 匹配 的 模板 。 
> 这 意味 着 最 通用 的 模板 (比如, 使 用 "match":"*" 的 那些 ) 应 该 定义 在 最 后 面 。 


7.5 小结 


本 章 介 绍 了 Elasticsearch 的 一 些 功能 ， 如 节点 发 现 、 模 块 负责 什么 ， 以 及 如 何 调 优 。 也 学 习 
了 恢复 和 时 光 之 门 模块 如 何 设置 以 配合 集群 ， 它 们 提供 了 什么 配置 选项 。 我 们 还 探讨 了 一 些 
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Elasticsearch 的 内 部 功能 ， 使 用 这 些 来 为 高 索引 和 高 查询 调 优 和 集群。 最后， 我 们 使 用 了 模板 和 动 


态 映 射 ， 以 便 更 好 地 管理 动态 索引 。 


下 一 章 关 注 Elasticsearch 的 管理 能 力 。 我 们 将 学 习 如 何 备份 集群 数据 ,使 用 可 用 的 API 调 用 监 








视 我 们 的 集群 ; 讨论 使 用 Elasticsearch API 如 何 控制 分 片 的 分 配 ， 如 


何在 集群 中 移动 分 片 ; 了 解 什 








么 是 索引 预 热 器 ， 以 及 它们 的 用 处 ; 使 用 别名 。 最 后 ， 还 将 学 习 如 何 安装 和 管理 Elasticsearch 捕 


件 ， 以 及 用 更 新 设置 API 能 做 些 什么 。 
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上 一 章 介 绍 了 Elasticsearch 中 节点 发 现 如 何 工作 ， 如 何 调 优 ,恢复 和 时 光 之 门 模块 ， 如 何 通 
过 调整 某 些 Elasticsearch 内 部 构件 来 准备 高 索引 和 高 查询 的 集群 及 其 内 部 构件 。 最 后 ， 使 用 索引 
模板 和 动态 映射 来 轻松 地 控制 动态 索引 的 结构 。 在 本 音 ， 你 将 了 解 以 下 内 容 : 


口 使 用 Elasticsearch 的 快照 功能 ; 

口 使 用 Elasticsearch API 监 控 集 和 群 ; 

口 调整 集群 的 再 平衡 ， 以 配合 我 们 的 需要 ; 
口 使 用 Elasticsearch API 移 动 分 片 ; 

口 预 热 ; 

口 使 用 别名 来 减轻 每 天 的 工作 ; 

口 安装 Elasticsearch 插 件 ; 

口 使 用 Elasticsearch 的 更 新 设置 API。 




















8.1 ” Elasticsearch 时 光 机 


一 个 好 的 软件 可 以 管理 硬件 故障 或 人 为 错误 等 异常 情况 。 尽 管 几 台 服 务 器 的 集群 很 少 暴 露 硬 
件 问题 , 但 不 好 的 事情 仍 会 发 生 。 假设 你 需要 恢复 索引 。 一 个 可 能 的 解决 方案 是 取得 以 SQL 数 据 
库存 储 的 所 有 主 数据 ， 并 重新 生成 索引 。 但 如 果 时 间 过 长 ,或 者 更 糟 的 是 ， 数 据 只 存储 在 
Elasticsearch 中 ， 怎 么 办 ? Elasticsearch 1.0 之 前 ， 创 建 索引 的 备份 很 不 容易 ， 过 程 包括 关闭 集群 、 
复制 数据 文件 等 。 幸 好 ， 现 在 可 以 使 用 快照 。 来 看 看 它 是 如 何 工 作 的 。 






































8.1.1 创建 快照 存储 库 


快照 保存 它 创建 的 时 间 点 上 所 有 跟 集群 相关 的 数据 , 包括 集群 状态 和 索引 的 信息 。 至 少 在 创 
建 第 一 个 快照 之 前 ， 必 须 创建 一 个 快照 存储 库 。 


每 个 存储 库 由 名 称 区 分 ， 应 该 定义 如 下 几 个 方面 。 
D name: 这 是 存储 库 的 唯一 名 称 ， 后 面 会 用 到 它 。 
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口 type: 这 是 存储 库 的 类 型 ， 可 能 的 值 包括 fs ( 共享 文件 系统 中 的 存储 库 )、url ( 一 个 通 
过 URL 访 问 的 只 读 存 储 库 )。 
口 settings: 这 是 不 同 存储 库 类 型 需要 的 额外 信息 。 


现在 , 创建 一 个 文件 系统 存储 库 。 请 注意 , 集群 中 的 每 个 节点 都 应 该 能 访问 这 个 目录 。 为 创 
建 一 个 新 的 文件 系统 存储 库 ， 可 以 执行 下 列 命 令 : 


Curl -XPUT localhost:9200/_snapshot/backup -dd '{ 
"type": Dk 
"settings": { 
"location": "/tmp/es_ backup folder/clusterl1" 
} 
3 


前 面 的 命令 创建 一 个 名 为 backup 的 库 ， 将 备份 文件 存储 在 由 1ocation 属 性 指定 的 目录 中 。 
Elasticsearch 返 回 下 列 信息 : 





























{"acknowledged":true} 


与 此 同时 ， 本 地 文件 系统 中 新 建 了 backup _ folder 目 录 ， 但 还 没有 任何 内 容 。 


我 们 说 过 ， 第 二 种 存储 库 类 型 是 url。 它 需要 一 个 ur1 参 数 ， 而 不 是 

、 location， 该 参数 指向 存储 库 所 在 的 地 址 ， 例 如 ，HTTP 地 址 。 你 还 可 以 把 快 

照 存储 在 Amazon S3 或 HDFS 中 ， 使 用 额外 的 可 用 插件 (参见 https:/github. 

com/elasticsearch/elasticsearch-cloud-aws#s3-repository 和 https://github.com/elastic 
search/elasticsearch-hadoop/tree/master/repository-hdfs )。 


现在 ,我 们 有 了 第 一 个 存储 库 ， 可 以 使 用 以 下 命令 看 到 它 的 定义 : 
curl -XGET localhost:9200/_snapshot/backup?pretty 

还 可 以 运行 以 下 命令 检查 所 有 存储 库 : 

curl -XGET localhost:9200/_snapshot/_all?pretty 

如 果 你 想 删 除 一 个 快照 存储 库 ， 标 准 的 DELETE 命 令 可 以 帮忙 : 


Curl -XDELETE localhost:9200/_snapshot/backup?pretty 


8.1.2 ”创建 快照 


默认 情况 下 ， 创 建 快照 时 ，Elasticsearch 取 得 所 有 的 索引 和 集群 设置 (除了 瞬时 的 那些 )。 你 
可 以 创建 任意 数量 的 快照 , 每 个 快照 将 持 有 从 创建 的 时 间 点 开始 的 所 有 信息 。 快照 的 创建 用 了 一 
种 巧妙 的 方式 : 仅 复制 新 的 信息 。 这 意味 着 Elasticsearch 知 道 哪 些 段 已 经 存储 在 存储 库 中 ， 不 会 
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再 保存 它们 。 
为 了 创建 新 的 快照 ， 需 要 选择 一 个 唯一 的 名 称 ， 并 使 用 下 面 的 命令 : 
Curl -XPUT 'localhost:9200/_snapshot/backup/bckpl' 


上 面 的 命令 定义 了 一 个 名 为 bpckp1 的 新 快照 ( 给 定名 称 只 能 有 一 个 快照 , Elasticsearch 会 检查 
它 的 唯一 性 )， 数 据 将 保存 在 之 前 定义 的 backup 库 中 。 该 命令 立即 返回 一 个 响应 ， 如 下 所 示 : 














{"accepted":true} 


上 述 响 应 意味 着 , 快照 的 进程 已 经 在 后 台 开 始 并 继续 。 如 果 你 想 在 实际 的 快照 被 创建 后 才 得 
到 响应 ， 可 以 添加 wait_for_completion 人 参数 ， 如 下 面 的 例子 所 示 : 








curl -XPUT 'localhost:9200/_snapshot/backup/bckp2?wait_ for completion= 


true&pretty' 
上 述 命令 的 响应 展现 了 新 创建 快照 的 状态 : 


{ 
"snapshot" : { 
"snapshot" : "bckp2", 
"indices" : [ "art" ], 
"state" : "SUCCESS", 
"start_ time" : "2014-02-22T13:04:40.7702Z", 
"start time in millis" : 1393074280770, 
"end time" : "2014-02-22T13:04:40.7812Z", 
"end time in millis" : 1393074280781, 
"duration in millis" : 11, 
"failures" : [ ]， 
"shards" : { 
"total" : 5, 
"failed" : 0， 
"successful" : 5 








} 
} 
} 
可 以 看 到 ，Elasticsearch 给 出 了 快照 过 程 消耗 的 时 间 、 它 的 状态 和 影响 到 的 索引 等 信息 。 
额外 参数 


快照 命令 还 可 以 接受 以 下 额外 参数 。 


D indices: 想 拍 下 快照 的 索引 名 称 。 

口 ignore_unavailable: 默认 为 true。 设 置 为 false 时 ， 意味 着 如 果 indices 参 数 指向 
了 不 存在 的 索引 ,命令 将 失败 。 

D include global_state: 默认 值 为 Lrue， 指 集群 的 状态 也 被 写 入 快照 中 (除了 那些 瞬 
时 的 设置 )。 
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口 partial: 快照 的 成 功 与 否 取 决 于 所 有 分 片 的 可 用 性 。 任 何 一 个 分 片 不 可 用 ,快照 都 将 
失败 。 设 置 partial 为 true 时 ，Elasticsearch 值 保存 可 用 分 片 的 信息 ， 省 略 丢 失 的 分 片 。 
使 用 额外 参数 的 一 个 示例 如 下 : 


Curl -XPUT 'localhost:9200/_snapshot/backup/bckp?wait for 
completion=true&pretty' -d '{ "indices": "b*", "include global state": 
mm false mm } 下 





8.1.3 ”还原 快照 

我 们 已 经 完成 了 快照 , 接 下 来 学 习 如 何 从 给 定 的 快照 中 恢复 数据 。 前 面 说 过 ,可 以 通过 名 称 
指向 一 个 快照 。 可 以 使 用 下 面 的 命令 列 出 所 有 快照 : 

CuUL1L -XGET '‘'localhost:9200/_snapshot/backup/_all?pretty' 


先前 创建 的 存储 库 名 称 为 backup。 为 了 从 库 中 还 原 一 个 名 为 bckpi 的 快照 ， 执 行 下 面 的 


命令 : 











Curl -XPOST 'localhost:9200/_ snapshot/backup/bckpl/_restore' 

执行 这 个 命令 的 过 程 中 ，Elasticsearch 取 得 定义 在 此 快照 中 的 索引 ， 并 用 快照 中 的 数据 创建 
它们 。 如 果 索 引 已 经 存在 而 且 未 关闭 ， 该 命令 将 失败 。 这 种 情况 下 ， 你 可 能 会 发 现 只 还 原 某 些 索 
引 是 很 方便 的 ， 例 如 : 


Curl -XPOST 'localhost:9200/_ snapshot/backup/bck1/ restore?pretty' -qd '{ 
nindices": nm 











上 述 命令 只 还 原 以 字母 c 开 头 的 索引 ， 还 有 以 下 可 用 参数 。 


口 1ignore_unavailable:， 与 创建 快照 时 相同 。 

口 include global_ state: 与 创建 快照 时 相同 。 

口 rename_pattern: 人 允许 你 改变 存储 在 快照 中 的 索引 的 名 称 。 归 功 于 此 ， 还 原 的 索引 将 
有 一 个 不 同 的 名 称 。 此 参数 的 值 是 一 个 正则 表达 式 ， 定 义 了 源 索 引 的 名 字 ， 如 果 模 式 与 
索引 名 字 匹 配 ， 将 发 生 名 称 替换 。 在 该 模式 中 ， 应 当 使 用 以 rename_replacement 参 数 
中 所 用 括号 分 隔 的 分 组 。 

口 rename replacement: 该 参数 和 rename_pattern 一 起 定义 了 目标 索引 名 小 。 使 用 美 

元 符号 和 数字 可 以 指向 rename_pattern 中 合适 的 组 。 











例如 , 由 于 rename_pattern=products_(.*)， 只 有 名 称 以 products_ 开 头 的 索引 将 被 还 
原 。 索 引 名 字 的 其 他 部 分 将 使 用 在 替换 部 分 。 配 合 rename_replacement=items_s$1， 将 让 
brodqucts_cars 索 引 被 还 原 成 名 为 items_cars 的 索引 。 
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8.1.4 清理 : 删除 旧 的 快照 














Elasticsearch 把 快照 库 的 管理 交 给 你 。 目 前 ， 没 有 自动 的 清理 过 程 。 但 不 用 担心 ， 这 很 简单 。 





例如 ， 删 除 之 前 创建 的 快照 : 
Curl -XDELETE '‘'localhost:9200/_snapshot/backup/bckpl?pretty' 


就 这 么 简单 。 该 命令 将 从 backup 库 中 删除 名 为 bckp1 的 快照 。 
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在 应 用 程序 的 正常 周期 中 , 一 个 很 重要 的 方面 就 是 监控 。 这 使 系统 管理 员 能 够 检测 并 预防 可 





能 的 问题 ， 或 至 少 知道 失败 时 会 发 生 什么 。 


Elasticsearch 提 供 了 非常 详细 的 信息 , 使 你 能 够 检查 和 监控 单个 节点 或 作为 一 个 整体 的 集群 。 
这 包括 统计 数字 、 有 关 服 务 需 的 信息 、 节 点 、 索 引 和 分 片 。 当 然 ， 也 能 够 获得 整个 集群 状态 的 有 
关 信 息 。 在 深入 提 到 的 API 细 节 之 前 ， 请 记 住 ，API 是 复杂 的 ,我们 只 是 描述 基本 的 东西 。 我 们 





会 试 着 展现 什么 时 候 开始 ， 让 你 在 需要 非常 详细 的 信息 时 能 知道 要 找 什么 。 


8.2.1 集群 健康 度 API 





一 个 最 基本 的 API 是 集群 健康 度 API， 它 人 允许 使 用 单个 HTTP 命 令 得 到 整个 集群 的 状态 信息 。 


例如 ， 执 行 以 下 命令 : 
curl 'localhost:9200/_ cluster/health?pretty' 
上 述 命令 返回 的 响应 示例 如 下 所 示 : 


{ 
"cluster name" : "es-book", 
"status" : "green", 
"timed out" : false, 
"number of nodes" : 1, 
"number of data nodes™ : 1， 
"active primary shards" : 4, 
"active shards" : 4, 
"relocating shards" : 0, 
"initializing shards" : 0, 
"unassigned shards" : 0 


} 








最 重要 的 一 个 信息 是 关于 集群 的 状态 。 在 例子 中 ,我 们 看 到 集群 是 green 状 态 。 


有 分 片 已 妥善 分 配 ， 没 有 错误 。 


暂停 一 下 ， 先 谈 谈 作为 一 个 整体 的 集群 什么 时 候 会 完全 运作 。 当 Elasticsearch 能 够 根据 配置 
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分 配 所 有 分 片 和 副本 时 ， 集 群 才 全 面 运 作 。 在 这 种 情况 下 ， 集 群 在 green 状 态 。yellow 状 态 意 
味 着 我 们 已 经 准备 好 处 理 请 求 ， 因 为 主 分 片 已 经 分 配 , 但 部 分 或 所 有 副本 还 没有 。 最 后 一 个 状态 
是 red， 这 意味 着 至 少 一 个 主 分 片 没有 分 配 ， 因 此 集群 还 没有 准备 好 。 这 意味 着 查询 可 能 返回 错 
误 或 不 完整 的 结果 。 


前 面 的 命令 也 可 以 用 来 检查 某 索 引 的 健康 状况 。 如 果 想 要 检查 1ibrary 和 map 索 引 的 健康 


度 ， 运行 以 下 命令 : 

















curl 'localhost:9200/_cluster/health/library,map/?pretty' 

1. 控制 信息 细节 

Elasticsearch 人 允许 指定 一 个 特殊 的 level 参 数 ， 把 它 指定 为 cluster (默认 )、indices 或 
shards。 这 样 就 能 够 控制 由 健康 度 API 返 回信 息 的 细节 ,我 们 已 经 看 过 默认 的 行为 。 当 设置 level 
为 indices 时 , 除 集群 信息 外 , 还 将 获得 每 个 索引 的 健康 度 。 参数 设置 为 spards 告 诉 Elasticsearch 
除了 返回 我 们 在 示例 中 看 到 内 容 ， 还 要 返回 每 个 分 片 的 信息 。 

2. 额外 的 参数 

除了 level 参 数 ， 还 有 一 些 额 外 参数 用 来 控制 健康 度 API 的 行为 。 

第 一 个 参数 是 timeout。 它 允许 控制 命令 执行 的 最 长 时 间 。 默 认 值 为 30s， 意 味 着 健康 度 命 
令 将 最 长 等 待 30 秒 钟 ， 然 后 返回 。 

wait_for_status 人 参数 告诉 Elasticsearch 返 回响 应 时 ， 集 群 应 该 处 于 什么 状态 。 可 以 把 它 设 


置 为 green、yellow 和 red。 例 如 ,设置 为 green 时 ， 健 康 度 API 调 用 将 返回 绿色 状态 ,或 者 达 
到 timeout 时 间 。 

wait_for_nodes 人 参数 允许 设置 返回 响应 时 需要 多 少 节点 可 用 (或 者 达到 timeout 时 间 )。 
可 以 设置 该 参数 为 整数 值 ,比如 3, 或 者 一 个 简单 等 式 , 比如 >=3 ( 大 于 或 等 于 3 个 节点 ) <=3 (小 
于 或 等 于 3 个 节点 )。 

最 后 一 个 参数 是 wait_for_relocating_shard， 默 认 不 指定 。 它 告诉 Elasticsearch 应 该 重 
定位 多 少 分 片 (或 者 等 待 timeout 时 间 )。 设 置 该 参数 为 0 意味 着 Elasticsearch 应 该 等 待 所 有 重 定 
位 分 片 。 

使 用 以 上 参数 的 健康 度 命令 的 一 个 例子 如 下 所 示 : 


















































curl 'localhost:9200/_ cluster/health?wait for status=greengwait for 
nodes=>=3&timeout=100s' 


8.2.2 索引 统计 API 
Elasticsearch 索 引 是 保存 数据 的 地 方 ， 它 对 大 多 数 部 署 来 说 是 非常 重要 的 部 分 。 使 用 _stats 
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端点 上 的 索引 统计 API， 可 以 得 到 关于 集群 中 索引 的 各 种 信息 。 当 然 ， 和 Elasticsearch 大 多 数 API 
一 样 ， 可 以 发 送 命令 得 到 所 有 索引 的 信息 ( 使 用 纯 _stats 端 点 ), 或 得 到 某 特 定 索 引 的 信息 ( 例 
如 ，1ibrary/_stats ),， 或 者 一 次 得 到 几 个 索引 的 信息 (例如 ，1library,map/_stats )。 例 
如 ， 为 了 检查 本 书 中 使 用 的 map 和 1ibrary 索 引 的 统计 信息 ， 可 以 执行 如 下 命令 : 








curl localhost:9200/library,map/_stats?pretty 


上 面 的 命令 将 返回 超过 500 行 的 响应 ， 所 以 省 略 它 ， 只 描述 一 下 它 的 结构 。 除 了 响应 状态 和 
响应 时 间 等 信息 之 外 , 还 可 以 看 到 三 个 对 象 ， 分别 是 primaries、tota1l 和 indqices。indices 
对 象 包含 1ibrary 和 map 索 引 的 信息 。primaries 对 象 包含 分 配 在 当前 节点 的 主 分 片 信息 ， 
total 对 象 包含 所 有 分 片 (包括 副本 分 片 ) 的 所 有 信息 。 所 有 这 些 对 象 都 包含 描述 特殊 统计 的 对 


象 ， 比 如 docs、store、indexing、get、search、 merges、refresh、 flush、warmer、 








filter cache, id cache, fielddata, percolate. completion., segments 和 translog。 


来 讨论 存储 在 这 些 对 象 中 的 信息 。 





1. docs 


响应 中 的 dqocs 节 点 显示 索引 文档 的 信 | 





证 


。 它 看 上 去 可 能 如 下 所 示 : 


Welet: 人 -二 
这 加 让 页 攻 "二 4 
"deleted" : 0 

} 


主要 信息 是 count，, 指 文档 的 数 日 。 从 索引 中 删除 文档 时 ，Elasticsearch 并 不 会 立即 移 除 这 些 
文档 ,只 把 它们 标记 为 删除 。 这 些 文档 将 在 段 合 并 过 程 中 被 删除 。 被 标记 成 删除 的 文档 数目 将 出 
现在 deleted 属 性 中 ， 在 合并 结束 时 应 该 为 0。 














2. store 


下 一 个 统计 组 是 store， 提 供 了 关于 存储 的 信息 。 例 如 ， 该 节点 看 上 去 可 能 如 下 所 示 : 








"store" : { 
"size_in bytes" : 6003, 
"throttle time in millis" : 0 


} 


主要 的 信息 是 关于 这 个 索引 (或 多 个 索引 ) 的 大 小 。 我 们 还 看 到 了 调节 统计 值 。 在 系统 有 LO 
性 能 问题 ， 并 且 设 置 了 段 合 并 过 程 中 内 部 操作 的 限制 时 ， 这 个 信息 很 有 用 。 














3. indexing、get 和 search 


响应 中 的 ijndexing、get 和 searcn 节 点 提供 了 数据 操纵 的 相关 信息 : 索引 删除 操作 、 实 时 
的 get 和 搜索 。 来 看 看 Elasticsearch 返 回 的 下 列 例子 : 
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"indexing" : { 
"index total" : 11501, 
"index time in millis" : 4574, 
"index current" : 0, 
"delete total" : 0, 
"delete time in millis" : 0， 
"delete current" : 0 
Fy 
"get" : { 
"total" : 3， 
"time in millis" : 0, 
"exists_ total" : 2, 
"exists time in millis" : 0, 
"missing total" : 1, 
"missing time in millis" : 0， 
"current" : 0 
}s 
"search" : { 
"query total" : 0, 
"query time in millis" : 0, 
"query_ current" : 0， 
"fetch total" : 0, 
"fetch time in millis" : 0, 
"fetch current" : 0 
} 


可 以 看 到 ,所 有 这 些 统计 具有 类 似 结构 。 可 以 看 到 各 种 类 型 的 请 求 花费 的 总 时 间 ( 以 毫秒 为 
单位 ) 以 及 请 求 数 ， 可 以 用 总 时 间 计 算 单 个 查询 的 平均 时 间 。 在 实时 的 情况 下 ，get 请 求 中 有 价 
值 的 信息 是 不 成 功 读 取 的 次 数 ( 因为 文档 缺失 )。 








此 外 ，Elasticsearch 提 供 了 下 列 信息 。 


口 merges: 该 节点 包含 Lucene 段 合并 的 信息 。 

口 refresh: 该 节点 包含 刷新 操作 的 信息 。 

口 Elush: 该 节点 包含 清理 信息 。 

口 warmer: 该 节点 包含 巴 热 器 的 信息 ， 以 及 它们 执行 了 多 久 。 
DQ filter cache: ee 过 滤 顺 缓存 统计 信息 。 

口 1dq_cache: 是 标识 符 绥 存 统计 信息 。 

DQ fielddata: 役 数 据 缓存 统计 信息 。 

口 percolate: 该 节点 包含 预 匹 配器 使 用 情况 的 信息 。 
口 completion: 该 节点 包含 自动 完成 建议 器 的 信息 。 
口 segments: 该 节点 包含 Lucene 段 的 信息 。 

口 translog: 该 节点 包含 事务 日 志 计 数 和 大 小 的 信息 。 
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8.2.3 状态 API 


另 一 个 得 到 关于 索引 信息 的 方法 ， 是 使 用 _status 端 点 的 状态 API。 返 回 的 信息 描述 了 可 用 
的 分 片 ， 包含 的 信息 有 : 哪个 分 片 被 认为 是 主 分 片 ， 它 被 分 配 到 了 哪个 节点 ， 被 重 分 配 到 了 哪个 
节点 (如果 是 的 话 )， 分 片 的 状态 〈 活跃 与 否 )， 事 务 日 志 ， 合 并 过 程 以 及 刷新 和 清理 统计 。 















































8.2.4 节点 信息 API 








节点 信息 API 提 供 了 关于 集群 中 节点 的 信息 ， 为 从 该 API 得 到 信息 ， 需 要 发 送 请 求 到 _nodes 
端点 。 

这 个 API 可 以 使 用 如 下 特性 获取 单个 或 特定 几 个 节点 的 信息 。 
口 Node 名 : 如 果 想 得 到 名 为 Pulse 的 节点 的 信息 , 可 以 在 _nodes/Pulse REST 端 点 上 执行 
命令 。 
口 Node 标 识 符 : 如 果 想 得 到 标识 符 为 ny4hftjNQtuKMyEvpUdowg 的 节点 的 信息 ， 可 以 在 
_nodqes/ny4hftjNQOLtuKMyEvpUdowg 端 点 上 执行 命令 。 
口 下 地 址 : 如 果 想 得 到 耳 地 址 为 192.168.1.103 的 节点 的 信息 ， 可 以 在 _nodqes/192.168.1. 
103 REST 端 点 上 执行 命令 。 
口 Elasticsearch 配 置 参 数 : 如 果 想 得 到 nodqe .rack 属 性 等 于 2 的 所 有 节点 的 信息 ， 可 以 在 

_nodes/rack:2 REST 端 点 上 执行 命令 。 
































该 API 还 允许 使 用 如 下 方式 一 次 性 得 到 几 个 节点 的 信息 : 


口 模式 ,例如 ，_nodes/192.168.1.* 或 者 _nodes/P*; 
口 节点 枚 举例 如 ，_nodes/Pulse,Slab; 
口 模式 与 节点 枚 举例 如 ，/_nodes/P*,S*。 


默认 情况 下 ， 对 节点 API 的 请 求 将 返回 关于 节点 的 基本 信息 ， 比 如 名 称 、 标 识 符 、 地 址 。 通 
过 添加 额外 参数 ， 可 以 获得 其 他 信息 。 可 用 的 参数 如 下 所 示 。 


口 settings: 此 参数 用 来 获取 Elasticsearch 配 置信 息 。 

口 os: 此 参数 用 来 获取 服务 器 的 信息 ， 诸 如 处 理 器 、 内 存 和 交换 区 等 。 
口 process: 此 参数 用 来 获取 进程 标识 符 和 可 用 的 文件 描述 符 等 信息 。 

口 jvm: 此 参数 用 来 获取 关于 Java 虚 拟 机 (JVM ) 的 信息 ， 比 如 内 存 限 制 。 
口 thread_pool: 此 参数 用 来 获取 各 种 操作 的 线程 池 配 置 。 

口 network: 此 参数 用 来 获取 网 络 接口 的 名 称 和 地 址 。 

口 transport: 此 参数 用 来 获取 传输 的 侦 听 接口 地 址 。 

口 http: 此 参数 用 来 获取 HTTP 侦 听 地 址 。 

D plugins: 此 参数 用 来 获取 安装 的 插件 信息 。 
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使 用 先前 描述 的 API 示 例如 下 : 
Curl 'localhost:9200/_ nodes/Pulse/os,jvm,plugins?pretty' 


上 述 命 令 除 了 返回 基本 信息 外 ， 还 有 操作 系统 、Java 虚 拟 机 和 插件 的 相关 信息 。 当 然 ， 所 有 
信息 都 是 针对 Pulse 节 点 。 





8.2.5 ”节点 统计 API 


节点 统计 API 跟 前 面 描述 的 节点 信息 API 类 似 。 主 要 的 区 别 是 ， 节 点 信息 API 提 供 环境 信息 ， 
而 节点 统计 API 告 诉 我 们 集群 工作 时 发 生 过 什么 。 为 使 用 节点 统计 API， 你 应 该 发 送 命令 到 
/_nodes/statsREST 端 点 。 跟 节点 信息 API 类 似 ， 我 们 同样 可 以 获取 特定 节点 的 信息 (比如 ， 


_nodes/Pulse/stats )。 


默认 情况 下 ，Elasticsearch 返 回 所 有 可 用 的 统计 ， 但 可 以 限制 为 我 们 感 兴趣 的 那些 。 可 用 的 
选项 如 下 。 


D indices: 提供 了 关于 索引 的 信息 ， 包 括 大 小 、 文 档 个 数 、 索 引 相关 的 统计 、 搜 索 和 获 
取 时 间 、 缓 存 、 段 合并 ， 等 等 。 

口 os: 提供 了 操作 系统 相关 的 信息 ， 比 如 可 用 磁盘 空间 、 内 存 、 交 换 分 区 的 使 用 。 

口 process: 提供 了 跟 Elasticsearch 进 程 相关 的 包括 内 存 、CPU 和 文件 句柄 等 的 使 用 情况 。 
口 jvm: 提供 了 关于 Java 虚 拟 机 内 存 和 垃圾 回收 统计 的 信息 。 

口 network: 提供 了 TCP 级 别 的 信息 。 

口 transport: 提供 了 传输 模块 发 送 和 接收 数据 的 信息 。 

D http: 提供 了 HTTP 连 接 的 信息 。 

D fs: 提供 了 可 用 磁盘 空间 和 IO 操作 统计 的 信息 。 

口 thread_pool: 提供 了 分 配给 各 种 操作 线程 的 状态 信息 。 

口 preaker: 提供 了 字段 数据 缓存 断路 器 的 信息 。 


一 个 使 用 该 API 的 示例 代码 如 下 所 示 : 



























































curl 'localhost:9200/ nodes/Pulse/stats/os,jvm,breaker?pretty' 


8.2.6 ”集群 状态 API 


Elasticsearch 提 供 的 男 一 个 API 是 集群 状态 API。 顾 名 思 义 ， 它 允许 获取 关于 整个 集群 的 信息 
(也 可 以 通过 在 请 求 中 添加 1ocal=true， 限 制 只 返回 本 地 节点 的 信息 )。 用 于 获取 所 有 信息 的 基 
本 命令 如 下 所 示 : 


























curl 'localhost:9200/_cluster/state?pretty' 
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不 过 ， 也 可 以 把 提供 言 息 限 定 为 特定 的 度量 ( 用 逗号 分 隔 , 在 REST 调 用 的 _cluster/state 
有 分 之 后 指定 ), 以 及 特定 的 索引 ( 同样 用 逗号 分 隔 , 在 REST 调 用 的 _cluster/state/metrics 
分 之 后 指定 )。 下 面 是 一 个 示例 调用 ， 它 只 返回 关于 map 和 1ibrary 索 引 的 节点 相关 信息 : 














Dk DK 





curl 'localhost:9200/_cluster/state/nodes/map,library?pretty' 
可 使 用 下 面 这 些 度 量 。 


口 version: 返回 关于 集群 状态 版 本 的 信息 。 

口 master_node: 返回 关于 所 选 主 节 点 的 信息 。 

口 nodes: 返回 节点 上 的 信息 。 

口 routing_table: 返回 路 由 相关 的 信息 。 

口 metadata: 返回 元 数据 相关 的 信息 。 当 指定 要 获取 元 数据 度量 ， 还 可 以 包含 一 个 额外 的 
参数 index_templates=true， 将 在 结果 中 包含 定义 的 索引 模板 。 

口 blocks: 返回 关于 块 的 信息 。 

















8.2.7 ” 挂 起 任务 API 


Elasticsearch 1.0 中 引入 的 一 个 API 是 挂 起 任务 API ( pending tasks API )， 它 允许 我 们 坚持 哪些 
任务 在 等 待 执 行 。 为 获取 这 个 信息 ， 需 要 发 送 请 求 到 /_cluster/pending_tasks REST 端 点 。 
在 响应 中 ， 我 们 将 看 到 一 组 任务 ， 包 含 任务 优先 级 、 队 列 等 待 时 间 等 信息 。 




















8.2.8 索引 段 API 


我 们 想 提 的 最 后 一 个 API 是 通过 使 用 /_ segments 端 点 的 Lucene 段 API。 可 以 为 整个 集群 或 单 
独 的 索引 执行 它 。 该 API 提 供 的 信息 包括 分 片 、 分 片 的 布局 ， 以 及 Lucene 库 管理 的 跟 物 理 索引 相 
连 的 段 。 























8.2.9 cat API 


当然 , 可 以 说 我 们 需要 的 用 来 诊断 和 观察 集群 的 所 有 信息 都 可 以 通过 提供 的 API 获 取 。 然而 ， 
API 返 回 的 响应 是 JSON 格 式 ， 它 很 好 , 但 至 少 对 于 人 类 来 说 ,不 是 特别 方便 使 用 。 这 就 是 为 什么 
Elasticsearch 人 允许 使 用 一 个 友好 的 API: cat API。 为 使 用 cat API， 需 要 向 _cat REST 端 点 发 送 一 个 
请 求 ， 紧 跟着 下 面 的 其 中 一 个 选项 。 


口 aliases: 返回 有 关 别 名 的 信息 〈8.6 节 中 将 介绍 别名 )。 
口 allocation: 返回 分 片 分 配 和 磁盘 使 用 的 信息 。 

口 count: 为 所 有 索引 或 单个 索引 返回 文档 个 数 的 信息 。 
口 health: 返回 集群 健康 度 的 信息 。 
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口 indices: 返回 所 有 索引 或 单个 索引 的 信息 。 

口 master: 返回 当选 主 节 点 的 信息 。 

D nodes: 返回 集群 拓扑 相关 信息 。 

口 pending_tasks: 返回 正在 等 待 执行 的 任务 信息 。 
口 recovery: 返回 还 原 过 程 的 视图 。 

D thread_ pool: 返回 集群 范围 内 的 线程 池 的 统计 信 ， 
口 shards: 返回 关于 分 片 的 信息 。 


这 可 能 有 点 混乱 ， 来 看 一 个 返回 分 片 信息 的 示例 命令 ， 如 下 所 示 : 


curl -XGET 'localhost:9200/_cat/shards?v' 





证 





注意 ， 在 请 求 中 包括 v 参 数 。 这 意味 着 我 们 希望 更 详细 的 信息 ， 例 如 ， 包 括 
人 、、 头 部 信息 。 除 v 参 数 外 ， 也 可 以 使 用 help 参 数 ， 它 将 返回 给 定 命令 的 头 部 描述 
还 有 h 参 数 ， 它 接受 一 个 去 号 分 隔 的 列表 ， 指 定 要 包含 在 响应 中 的 列 。 


上 上 述 命令 的 响应 如 下 所 示 : 


index shard prirep state docs store ip node 
map 0 p STARTED 4 5.9kb 192.168.1.40 es node 1 
library 0 p STARTED 9 11.8kb 192.168.56.1 es _ node 2 








可 以 看 到 , 我 们 有 两 个 索引 ,每 个 都 有 一 个 分 片 。 还 看 到 分 片 的 DD， 也 就 是 说 , 它 是 不 是 主 
分 片 ， 以 及 它 的 状态 、 文 档 数 、 大 小 、 市 点 的 耳 地 址 、 节 点 名 称 等 。 


限制 返回 信息 


一 些 cat API 命 令 人 允许 限制 它们 返回 的 信息 。 例 如 ,别名 调用 允许 我 们 通过 添加 别名 来 得 到 特 
定 别名 的 信息 /区 ， 就 像 下面 的 命 HH 令 : 


curl -XGET 'localhost:9200/_cat/aliases/current index' 
我 们 总 结 一 下 允许 限制 信息 的 命令 。 


Daliases: 通过 在 请 求 中 添加 别名 ,来 限定 获取 特定 别名 的 信息 。 

口 count: 通过 在 请 求 中 添加 我 们 感 兴趣 的 索引 名 字 ， 来 限定 获取 特定 索引 的 信息 。 
D indices: 同 count 一 样 ， 限 定 只 获取 特定 索引 的 信息 。 

口 shards: 通过 在 请 求 中 添加 我 们 感 兴趣 的 索引 名 字 ， 来 限定 获取 特定 索引 的 信息 。 
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8.3 ”控制 集群 的 再 平衡 


默认 情况 下 ，Elasticsearch 试 图 把 分 片 和 其 副本 在 集群 中 均衡 分 布 。 在 大 多 数 情 况 下 这 种 行 
为 是 好 的 , 但 有 时 我 们 想 控 制 此 行为 。 本 节 将 深入 介绍 如 何 避 免 集群 再 平衡 (rebalancing ), 以 及 
如 何 控制 这 一 过 程 的 行为 。 

假设 你 的 网 络 可 以 处 理 很 高 的 流量 , 或 者 相反 , 网 络 被 大 量 使 用 , 你 希望 可 以 避免 太 多 压力 。 
另 一 个 例子 是 ， 你 可 能 想 在 整个 集群 重启 后 ， 减 少 IO 子 系统 的 压力 ， 并 且 同 时 你 要 减少 分 片 和 
副本 的 初始 化 。 这 只 是 两 个 再 平衡 控制 可 能 很 方便 的 例子 。 
































8.3.1 再 平衡 


再 平衡 是 在 集群 的 不 同 节点 之 间 移 动 分 片 的 过 程 。 我 们 已 经 提 到 ， 在 大 多 数 情况 下 它 是 好 
的 ,但 有 时 你 可 能 想 完 全 避免 这 种 情况 。 如 果 我 们 定义 且 和 希望 保持 分 片 放置 ， 就 要 避免 再 平衡 。 
然而 ， 默 认 情况 下 ， 当 集群 状态 变化 ， 或 者 Elasticsearch 认 为 需要 再 平衡 时 ， 它 会 尽量 对 集群 进 
行 再 平衡 。 












































8.3.2 ”集群 的 就 绪 


我 们 已 经 知道 , 索引 可 以 由 分 片 和 副本 构成 。 主 分 片 (或 者 简称 分 片 ) 用 于 新 文档 被 编 入 索 
引 以 及 更 新 或 删除 ， 或 者 只 是 索引 发 生 任何 变化 时 。 我 们 的 副本 从 主 分 片 获取 数据 。 


你 可 以 认为 ， 当 所 有 主 分 片 都 被 分 配 在 集群 中 的 节点 上 ， 也 就 是 一 旦 达到 黄色 的 健康 状态 
时 ， 集 群 就 已 经 就 绪 了 。 然 而 ， 此 时 Elasticsearch 还 可 能 在 初始 化 其 他 分 片 : 副本 。 但 是 ， 你 已 
经 可 以 使 用 集群 ， 并 确保 可 以 搜索 整个 数据 集 ， 也 可 以 发 送 索引 更 改 命令 。 之 后 ， 这 些 都 将 被 
正确 处 理 。 



































8.3.3 ”集群 再 平衡 设置 


Elasticsearch 人 允许 控制 再 平衡 过 程 ， 通 过 设置 elasticsearch.yml 文 件 中 的 几 个 属性 ， 或 使 用 
Elasticsearch REST API ( 在 8.8 节 中 描述 )。 














1. 控制 再 平衡 何 时 开始 

可 以 通过 设置 cluster.routing.allocation.allow_rebalance 属 性 来 指定 再 平衡 何 
时 开始 。 该 属性 可 以 设置 为 如 下 几 个 值 。 
口 always: 该 值 表明 再 平衡 可 以 在 需要 时 随时 开始 。 
D indices_primaries_active: 该 值 表明 当 所 有 的 主 分 片 都 初始 化 后 , 再 平衡 才 会 开始 。 
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D inaices_all_active， 该 值 是 默认 设置 ， 意 味 着 所 有 分 片 和 副本 都 初始 化 后 ， 再 平衡 
才 会 开始 。 


2. 控制 同时 在 节点 中 移动 的 分 片 数 量 


可 以 设置 cluster. routing.allocation. cluster_concurrent_rebalance 属 性 来 指 
定 整 个 集群 中 同时 可 以 在 节点 间 移 动 的 分 片 数量 。 如果 你 的 集群 由 很 多 节点 组 成 , 可 以 提高 这 个 
值 ， 默 认 值 为 2。 


3. 控制 单个 节点 上 同时 初始 化 的 分 片 数 量 

















cluster.routing.allocation.node_concurrent_recoveries 属 性 可 以 用 来 设置 
Elasticsearch 在 单个 节点 上 一 次 可 以 初始 化 多 少 分 片 。 请 注意 分 片 的 还 原 过 程 是 非常 耗 VO 的 ， 所 


以 你 可 能 要 避免 太 多 的 分 片 同 时 被 还 原 。 该 属性 值 默认 跟 上 一 个 属性 一 样 ， 为 2。 
4. 控制 单个 节点 上 同时 初始 化 的 主 分 片 数 














可 以 设置 cluster.routing.allocation.node initial primaries_recoveries 属 


性 来 控制 单个 节点 上 一 次 可 以 初始 化 多 少 主 分 片 。 
5. 控制 分 配 的 分 片 类 型 


使 用 cluster.routing.allocation.enable 属 性 ， 可 以 控制 允许 分 配 哪 种 类 型 的 分 片 。 
该 属性 可 以 使 用 如 下 值 。 


口 a11: 这 是 默认 值 ， 告 诉 Elasticsearch 所 有 类 型 的 分 片 都 可 以 被 分 配 。 

口 primaries: 告诉 Elasticsearch 它 应 该 只 分 配 主 分 片 ， 而 不 要 分 配 副 本 。 
口 new_primaries: 告诉 Elasticsearch 只 分 配 新 创建 的 主 分 片 。 

口 none: 这 完全 禁用 了 分 片 的 分 配 。 


6. 控制 单个 节点 上 的 并 发 流 数目 


indices.recovery.concurrent_streams 属 性 允许 控制 在 一 个 节点 上 一 次 可 以 打开 多 
少 流 ， 以 便 从 目标 分 片 中 恢复 一 个 分 片 。 它 的 默认 值 为 3。 如 果 你 的 网 络 和 节点 可 以 处 理 更 多 ， 
就 可 以 提高 这 个 值 。 















































8.4 ”控制 分 片 和 副本 的 分 配 


Elasticsearch 集 群 内 部 的 索引 ， 可 以 由 许多 分 片 建成 ， 每 个 分 片 可 以 有 多 个 副本 。 因 为 单一 
的 索引 可 以 有 多 个 分 片 ,可 以 处 理 索引 大 到 无 法 存 人 到 单 台 机 咒 的 情况 。 可 能 有 其 他 原因 ， 比 如 
与 存储 相关 的 内 存 和 CPU 等 。 因 为 每 个 分 片 可 以 有 多 个 副本 , 可 以 通过 把 副本 散布 到 多 台 服 务 器 
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上 ， 来 处 理 更 高 的 查询 。 可 以 说 通过 使 用 分 片 和 副本 ， 可 以 横向 扩展 Elasticsearch 。 然 而 ， 
Elasticsearch 必 须 找 出 在 集群 的 什么 地 方 放置 分 片 和 副本 ， 即 每 个 分 片 或 副本 应 放 在 哪些 服务 器 
或 节点 上 。 





8.4.1 显 式 控制 分 配 


假设 希望 把 索引 放置 在 不 同 的 集群 节点 上 。 例如， 把 一 个 叫 shop 的 索引 放置 在 某 些 节 点 上 ， 
第 二 个 叫 users 的 索引 放置 在 其 他 节点 上 。 把 最 后 一 个 名 为 promotions 的 索引 放置 在 users 和 
shop 索 引 放 置 的 所 有 节点 上 。 需 要 这 样 做 可 能 是 由 于 性 能 原因 。 我 们 知道 安装 过 Elasticsearch 的 
一 些 服务 器 比 其 他 服务 器 更 强大 。 使 用 默认 Elasticsearch 行 为 ,我们 不 知道 分 片 和 副本 将 放置 在 
哪 ， 但 幸好 ，Elasticsearch 人 允许 我 们 控制 它 。 


1. 指定 节点 参数 


所 以 让 我 们 把 集群 分 为 两 个 区 域 。 我 们 说 “区 ”， 但 它 可 以 是 任何 你 喜欢 的 名 称 ， 我 们 只 是 
喜欢 用 “区 ”。 假设 有 四 个 节点 , 希望 把 更 强大 的 编号 为 1 和 2 的 节点 放置 在 一 个 叫 zone_one 的 区 ; 
编号 3 和 4 的 节点 资源 较 少 ， 放 在 叫 zone_two 的 区 域 。 


2. 配置 


为 了 实现 我 们 描述 的 索引 分 布 ， 在 节点 1 和 节点 2 ( 较 强 的 节点 ) 的 elasticsearch.yml 配 置 文件 
中 添加 nodae . zone: zone_one 属 性 。 在 节点 3 和 节点 4 ( 较 弱 的 节点 ) 的 elasticsearch.yml 配 置 文 
件 中 添加 类 似 的 属性 : nodae .zone: zone_two。 


3. 索引 的 创建 
现在 创建 索引 。 首 先 创建 shop 索 引 。 将 此 索引 放置 到 更 强 的 节点 。 为 此 可 以 运行 以 下 命令 : 


curl -XPUT 'http://localhost:9200/shop' -d '{ 
"settings" : { 
"index" : { 
"routing.allocation.include.zone" : "zone one" 
} 
} 
}" 













































































上 述 命令 将 创建 shop 索 引 并 指定 index .routing.allocation.include.zone 属 性 的 值 
为 zone_one， 这 意味 着 我 们 希望 把 shop 索 引 放 到 node . zone 属性 等 于 zone_one 的 节点 上 。 


为 users 索 引 执 行 类 似 的 步 又 : 


curl -XPUT 'http://1Localhost :9200/users' -d '{ 
"settings" : { 
"index" : { 
"routing.allocation.include.zone" : "zone two" 
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} 
} Li 
不 过 这 一 次 ， 我 们 指定 希望 把 users 索 引 放 到 node . zone 属性 等 于 zone_two 的 节点 上 。 
最 后 , promotions 索 引 应 该 放 到 上 述 所 有 节点 , 因此 使 用 下 列 命令 来 创建 和 配置 这 个 索引 : 


Curl -XPOST '‘'http://localhost:9200/promotions' 
Curl -XPUT 'http://localhost:9200/promotions/ settings' -d '{ 
"index.routing.allocation.include.zone" : "zone one,zone two" 

} 下 

这 次 使 用 了 不 同 的 命令 集 。 第 一 个 命令 创建 索引 ， 第 二 个 命令 更 新 index.routing . 
allocation.include.zone 属 性 的 值 。 这 样 做 是 为 了 说 明 可 以 用 这 种 方式 来 做 。 

4. 排除 节点 的 分 配 

既然 可 以 指定 索引 应 该 放 在 哪个 节点 , 就 可 以 指定 应 该 排除 哪些 节点 。 参考 之 前 的 例子 , 如 果 
希望 名 为 pictures 的 索引 不 放 在 node . zone 属性 等 于 zone_one 的 节点 上 ， 可 以 执行 以 下 命令 : 

Curl -XPUT 'localhost:9200/pictures/_ settings' -d '{ 


"index.routing.allocation.exclude.zone" : "zone one" 
FE 


























性 ， 而 不 是 inaqex. 


el 
mm 


注意 ， 这 次 使 用 index.routing.allocation.exclude.zone 








routing.allocation.include.zone 属 性 。 

5. 节点 需求 属性 

除了 节点 的 包含 和 排除 规则 ， 还 可 以 指定 分 片 必 须 匹 配 某 种 规则 才能 分 配 到 给 定 节 点 上 。 不 
同 的 是 , 使 用 index.routing.allocation.include 属 性 时 , 索引 将 被 放置 到 与 该 属性 中 至 少 


一 个 值 匹配 的 节点 上 。 而 使 用 index.routing.allocation.require 属 性 值 时 ，Elasticsearch 将 
把 索引 放置 到 与 该 属性 的 所 有 值 都 匹配 的 节点 上 。 例 如 ,我们 已 经 为 pictures 索 引 做 了 如 下 设置 : 


url -XPUT '!'1ocalhost:9200/Pictures/_settings' -d '{ 
"index.routing.allocation.require.size" : "big node", 
"index.routing.allocation.require.zone" : "zone one" 
} 下 
执行 以 上 命令 后 ，Elasticsearch 将 只 会 把 pictures 索 引 的 分 片 分 配 到 node .size 属性 等 于 
big_node 日 node.zone 属 性 等 于 zone_one 的 节点 上 。 


6. 使 用 IP 地 址 分 配 分 片 


除了 在 节点 的 配置 中 添加 一 个 特殊 的 参数 , 也 可 以 使 用 IP 地 址 来 指定 应 该 包含 或 排除 哪些 节 
点 用 来 做 分 片 和 副本 的 分 配 。 为 此 ， 和 替换 indqex.zrouting.allocation.include.zone 或 
index.routing.allocation.exclude.zone 属 性 的 zone 部 分 , 而 改 用 _ip。 如果 和 希望 把 shop 
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索引 只 放置 到 IP 地 址 为 10.1.2.10 和 10.1.2.11 的 节点 上 ， 执 行 以 下 命令 
Curl -XPUT 'localhost:9200/shop/_settings' 
"index.routing.allocation.include. ip" 


}' 


-di't{ 
: "10.1.2.10,10.1.2.11" 


7. 基于 磁盘 的 分 片 分 配 





除了 上 面 描述 的 分 片 过 滤 方 法 外 ，Elasticsearch 1.0 引 入 了 一 个 额外 的 基于 磁盘 的 方法 ， 它 允 
许 基 于 节点 的 磁盘 使 用 情况 来 设置 分 配 规则 ， 因 此 不 会 有 耗 尽 磁盘 空间 或 类 似 的 问题 
(1) 启用 基于 磁盘 的 分 片 分 配 


基于 磁盘 的 分 片 分 配 默认 是 禁 
disk.threshold_enapbled 届 


如 性 为 Etzue 来 启用 它 。 可 以 在 elasticsearch.yml 文 件 中 设置 ， 或 者 使 
用 集群 设置 API 动 态 设置 (8.8 节 会 介绍 ): 























用 的 。 可 以 通过 设置 cluster.routing.allocation. 

















curl -XPUT localhost:9200/ cluster/settings -d '{ 
"transient" : { 


"cluster.routing.allocation.disk.threshold enabled" 
} 


}' 


: true 


(2) 配置 基于 磁盘 的 分 片 分 配 
以 下 三 个 属 


盟 性 可 以 用 来 控制 基于 磁盘 的 分 片 分 配 的 行为 ， 它 们 都 可 以 动态 更 新 ， 或 者 在 
elasticsearch.yml 配 置 文件 中 设置 。 


第 一 个 属性 是 cluster.info.update.interval， 默 认 值 为 30 秒 ， 定 义 了 Elasticsearch 更 
新 节点 上 磁盘 使 用 信息 的 时 间 间 隔 。 
































第 二 个 属性 是 cluster.routing.allocation.disk.watermark.1ow， 默 认 值 为 0.70。 
这 意味 着 Elasticsearch 不 会 在 磁盘 空间 被 使 用 超过 70% 的 节点 上 分 配 新 的 分 片 。 
第 三 个 属性 是 cluster.routing.allocation.disk.watermark.high， 默 认 值 为 0.85。 


意味 着 Elasticsearch 对 磁盘 使 用 大 于 等 于 85% 的 节点 将 开始 重新 分 配 分 片 。 














cluster.routing.allocation.disk.watermark.low 和 cluster.routing.alloca 


tion.disk.watermark.high 属 性 都 可 以 设置 成 一 个 百分比 (比如 0.60， 表示 60% ), 或 者 一 个 
绝对 值 (600 mb ， 表 示 600 兆 字 节 ) 


8.4.2 ”集群 范围 的 分 配 


除了 在 索引 级 别 上 指定 分 配 的 包含 和 排除 规则 (到 目前 为 止 我 们 讨论 的 )， 还 可 以 在 集群 中 
的 所 有 索引 上 指定 。 如 果 和 希望 把 所 有 新 索引 都 放置 到 卫 地 址 为 10.1.2.10 和 10.1.2.11 的 节点 上 ， 执 
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es 
行 如 下 命令 : 
Curl -XPUT 'localhost:9200/_ cluster/settings' -d '{ 
"transient" : { 
"cluster.routing.allocation.include. ip" : "10.1.2.10,10.1.2.11" 


} 
} 





我 们 注意 到 ， 命 令 发 送 到 cluster/settings REST 端 点 ， 而 不 是 INDFX_NAME/_settings 


端点 。 当 然 ， 可 以 使 用 在 索引 级 别 上 的 所 有 包含 、 排 除 、 需 求 规则 。 


请 注意 ， 集 群 的 瞬时 和 永久 属性 在 8.8 节 讨论 。 














8.4.3 每 个 节点 上 的 分 片 和 副本 数量 


除了 指定 分 片 和 副本 的 分 配 外 ， 还 可 以 指定 单一 节点 上 为 单一 索引 最 多 可 以 放置 多 少 分 片 。 
如 果 和 希望 shop 索 引 在 每 个 节点 上 只 有 一 个 分 片 ， 执 行 以 下 命令 : 





Curl -XPUT 'localhost:9200/shop/_settings' -d '{ 
"index.routing.allocation.total shards per node" : 1 

} 下 

该 属性 可 以 放 在 elasticsearch.yml 文 件 中 ， 或 者 使 用 上 述 命令 更 新 生产 环境 的 索引 。 请 记 住 ， 

如 果 Elasticsearch 无 法 分 配 所 有 的 主 分 片 ， 你 的 集群 将 维持 在 红色 状态 。 








8.4.4 手动 移动 分 片 和 副本 


我 们 想 讨 论 的 最 后 一 件 事 是 手动 在 节点 间 移 动 分 片 的 能 力 。 这 可 能 有 用 ,例如 ,在 关 掉 一 个 
节点 之 前 ， 你 想 把 该 节点 上 的 所 有 分 片 移 动 到 其 他 地 方 。Elasticsearch 公 开 了 _cluster/ 
zezrouteREST 端 点 ， 人 允许 我 们 控制 这 个 。 

有 以 下 可 用 的 操作 : 

口 把 分 片 从 一 个 节点 移 到 另 一 个 节点 ; 

口 取消 分 片 的 分 配 ; 
口 强制 分 片 的 分 配 。 
现在 让 我 们 仔细 看 看 上 述 操作 。 

















1. 移动 分 片 
假设 有 两 个 节点 ,分 别 为 es_node_one 和 es_node_two。 除 此 之 外 ， 我 们 的 shop 索 引 有 两 


个 分 片 被 Elasticsearch 放 置 在 第 一 个 节点 上 。 现 在 ,我 们 想 把 第 二 个 分 片 移动 到 第 二 个 节点 上 。 
为 此 ， 可 以 执行 以 下 命令 : 
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curl -XPOST 'localhost:9200/_cluster/reroute' -d '{ 
"commands" : [ { 
"move" : { 
"index" : "shop", 
"Shard" : 1, 
"from node" : "es node one", 
"to _ node" : "es_ node two" 


} 下 

我 们 指定 了 move 命 令 ， 它 允许 移动 由 inaex 属 性 指定 的 索引 的 分 片 〈 和 副本 )。shard 属 性 
是 要 移动 的 分 片 的 编号 。 最 后 ，from_node 属 性 指定 了 希望 从 哪个 节点 上 移动 分 片 ，to_node 
属性 指定 了 和 希望 把 分 片 放置 到 哪个 节点 上 。 


2. 取消 分 片 的 分 配 
如 果 想 取消 正在 进行 的 分 配 过 程 ， 可 以 执行 cancel 命 令 ， 并 指定 想 取 消 分 片 的 索引 、 节 点 
和 分 片 。 例 如 以 下 命令 : 


Curl -XPOST 'localhost:9200/_cluster/reroute' -d '{ 
"commands" : [ { 
"cancel" : { 
"index" : "shop", 
"shard" : 0, 
"node" : "es _ node one" 
} 
}] 
本 


上 述 命令 将 取消 es_nodqe_one 节 点 上 shop 索 引 编号 为 0 的 分 片 分 配 。 





























3. 强制 分 片 的 分 配 


除了 取消 和 移动 分 片 和 副本 ， 还 可 以 分 配 一 个 未 分 配 的 分 片 到 指定 节点 上 。 如 果 我 们 的 
users 索 引 有 个 编号 为 0 的 未 分 配 分 片 ， 想 把 它 分 配 到 es_nodqe_two 节 点 上 ， 执 行 以 下 命令 : 








curl -XPOST 'localhost:9200/_cluster/reroute' -d '{ 
"commands" : [ { 
"allocate" : { 
"index" : "users"™, 
"shard" : 0, 
"node" : "es _ node two" 
} 
}] 
¥” 


4. 每 个 HTTP 请 求 多 个 命令 


当然 ， 也 可 以 在 单个 HTTP 请 求 中 包含 多 个 命令 ， 例 如 ， 考 虑 以 下 命令 : 





图 灵 社 区 会 员 打 顺 顺 (lvshun@live.cn) 专 享 尊重 版 权 


8.5” 预 热 267 





Curl -XPOST 'localhost:9200/_cluster/reroute' -d '{ 
"commands" : [ 
{"move" : {"index" : "shop", "shard" : 1, "from node" : "es node one", 
"to_node" : "es node two"}}, 
{"cancel"™" : {"index" : "shop", "shard" : 0, "node" : "es node one"}} 
] 
时 


8.5 预 热 


有 时 ， 可 能 需要 为 了 处 理 查询 而 准备 Elasticsearch。 也 可 能 因为 你 严重 依赖 字段 数据 缓存 ， 
需要 在 生产 查询 到 达 之 前 加 载 它 们 ， 或 者 你 可 能 想 预 热 操作 系统 IO 缓存 。 不 管 什 么 原因 ， 
Elasticsearch 人 允许 为 类 型 和 索引 定义 预 热 查询 ( warning query )。 














8.5.1 定义 一 个 新 的 预 热 查询 


预 热 查询 跟 普 通 查询 没什么 区 别 ， 只 是 它 存 储 在 Elasticsearch 一 个 特殊 的 名 为 _warmer 的 索 
引 中 。 假 设想 使 用 下 面 的 查询 来 做 预 热 : 


{ 


"query" : { 
nmateh aLll 3 
Fs 
"facets" : { 
"warming_facet" : { 
"terms" : { 
"field™ :1 "tags" 
} 
} 
} 
} 
为 了 把 上 述 查 询 存 储 为 1iprary 索 引 的 预 热 查 询 ， 执 行 以 下 命令 : 
Curl -XPUT 'localhost:9200/library/ warmer/tags warming query' -d '{ 
"query" : { 
"match all" : {} 
}s 


"facets" : { 
"warming facet" : { 
"terms" : { 
"field" : "tags" 
} 
} 
} 
}" 


上 诉 命令 将 我 们 的 查询 注册 为 一 个 名 为 Lags_warming_query 的 预 热 查询 。 你 的 索引 可 以 
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有 多 个 预 热 查询 ， 但 每 一 个 查询 都 需要 一 个 唯一 的 名 称 。 


我 们 不 仅 可 以 对 整个 索引 定义 预 热 查 询 , 还 可 以 为 索引 中 的 特定 类 型 定义 。 为 了 把 前 面 展 现 
的 查询 存 为 library 索 引 中 :book 类 型 的 预 热 查询 ， 执 行 之 前 的 命令 ， 但 不 再 是 
/library/_warmer URI， 而 是 /1ibrary/book/_warmer。 所 以 ， 整 个 命令 将 如 下 所 示 





























curl -XPUT 'localhost:9200/library/book/ warmer/tags warming query' -d '{ 
"query" : { 
"match all" : {} 
a 
"facets" : { 
"warming facet" : { 
"terms" : { 
"field" : "tags" 
} 
} 





} 
} Li 
添加 一 个 预 热 查询 后 ，Elasticsearch 允许 一 个 新 段 执行 搜索 之 前 ， 会 在 那个 段 上 执行 定义 的 
预 热 查 询 。 它 允许 Elasticsearch 和 操作 系统 缓存 数据 ， 以 此 来 加 速 搜 索 。 





正如 1.1 节 中 介绍 的 ，Lucene 把 索引 分 为 多 个 段 ， 段 一 旦 写 入 不 再 修改 。 每 
个 新 的 提交 操作 都 会 创建 一 个 新 段 (如 果 段 的 数量 大 大 ， 将 会 被 合并 )，Lucene 
使 用 它 来 搜索 。 


8.5.2 ”获取 定义 的 预 热 查询 





为 了 获取 索引 中 的 特定 预 热 查询 , 我 们 只 需 知 道 它 的 名 称 。 如 果 想 获取 1ibrary 索 引 中 名 为 
tags_warming_query 的 预 热 查询 ， 执 行 下 面 的 命令 : 


Curl -XGET 'localhost:9200/library/_ warmer/tags warming query?pretty=true' 
Elasticsearch 返 回 的 结果 将 如 下 所 示 ( 注意 我 们 使 用 了 pretty=true 参 数 让 响应 更 易 阅 读 ): 


{ 
"library" : { 
"warmers" : { 
"tags warming query" : { 
"types" : [ ]， 
"source" : { 
"query" : { 
"match all" : { } 
}s 
"facets" : { 
"warming facet"™" : { 
"terms" : { 
"field" : "tags" 
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也 可 以 使 用 下 面 的 命令 来 获取 索引 和 类 型 的 所 有 预 热 查询 : 

Curl -XGET 'localhost:9200/library/_warmer' 

最 后 ， 还 可 以 获取 所 有 以 特定 前 组 开头 的 预 热 查询 。 例 如 ， 想 得 到 1ibrary 索 引 上 所 有 以 
tags 前 级 开头 的 预 热 查 询 ， 执 行 下 面 的 命令 : 


Curl -XGET 'localhost:9200/library/ warmer/tags*'"' 


8.5.3 删除 一 个 预 热 查询 








删除 预 热 查询 跟 获 取 预 热 查 询 非常 类 似 ， 只 需 使 用 DELETE 这 个 HTTP 方 法 。 为 了 从 索引 中 删 
除 一 个 特定 的 预 热 查 询 ， 我 们 只 需 知道 它 的 名 称 。 例 如 ， 从 1ibrary 索 引 中 删除 名 为 
tags_warming_query 的 预 热 查询 ， 执 行 以 下 命令 : 


Curl -XDELETE '‘'localhost:9200/library/ warmer/tags warming query' 
也 可 以 使 用 下 面 命令 来 删除 索引 上 的 所 有 预 热 查询 : 
Curl -XDELETE 'localhost:9200/library/_ warmer/_all' 


最 后 ， 也 可 以 删除 所 有 以 给 定 前 缀 开头 的 预 热 查询 。 例 如 ,要 删除 1ibzrazry 索 引 上 的 所 有 以 
tags 前 缀 开头 的 预 热 查询 ， 可 执行 以 下 命令 : 


Curl -XDELETE '‘'localhost:9200/library/ warmer/tags*"' 





8.5.4 禁用 预 热 功能 














为 了 完全 禁用 预 热 查询 ， 但 仍 把 它们 保存 在 _warmezr 索 引 中 ， 你 应 该 设置 index.warmer . 
enabled 属 性 为 false (设置 为 true 则 启用 预 热 功 能 )。 该 属性 可 以 在 elasticsearch.yml 文 件 中 设 




















置 ， 也 可 以 在 生产 集群 上 使 用 RESTAPI。 
如 果 想 禁用 1ibrary 索 引 上 的 预 热 功 能 ， 执 行 以 下 命令 : 


Curl -XPUT 'http://1Localhost :9200/1Library/_settings' -d '{ 


"index.warmer.enabled" : false 
琵 
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8.5.5 查询 的 选择 


你 可 能 会 问 哪个 查询 应 该 用 做 预 热 查询 。 通 常 要 选择 执行 起 来 昂贵 的 和 需要 填充 缓存 的 查 
询 。 因 此 ， 可 能 会 选择 基于 索引 中 的 字段 做 切面 和 排序 的 查询 。 除 此 以 外 ,父子 查询 和 包括 常用 
过 滤 右 的 查询 也 可 考虑 。 你 也 可 以 通过 查看 日 志 选 择 其 他 查询 ,找到 性 能 表现 不 尽 人 意 的 , 这 些 
也 可 以 是 很 好 的 预 热 候选 对 象 。 


假设 在 elasticsearch.yml 文 件 中 设置 了 以 下 的 日 志 配 置 : 








index.search.slowlog.threshold.query.warn: 10s 
index.search.slowlog.threshold.query.info: 5s 
index.search.slowlog.threshold.query.debug: 2s 
index.search.slowlog.threshold.query.trace: 1s 


并 且 在 logging.yml 配 置 文 件 中 设置 了 以 下 日 志 级 别 : 








logger: 
index.search.slowlog: TRACE, index_ search slow_ log_ file 





注意 ，index.search.slowlog.threshold.query.trace 属 性 设置 成 ls ， 而 日 志 级 别 
index.search.slowlog 属 性 设置 成 TRACE。 这 意味 着 每 当 一 个 查询 执行 时 间 查 过 1 秒 ( 在 分 片 
上 ,不 是 总 时 间 ) 时 ， 它 将 被 记录 到 慢 查 询 日 志文 件 中 (日 志文 件 由 logging.yml 配 置 文件 中 的 
index_search_slow_ 1og_file 节 点 指定 )。 例如 ， 慢 查询 日 志文 件 中 可 能 找到 下 面 的 条 目 : 


























[2013-01-24 13:33:05,518] [TRACE] [index.search.slowlog.query] [Local 
test] [library] [1] took[1400.7ms], took millis[1400], search_ 
type[QUERY_THEN_FETCH], total_shards[32], source[{"query":{"match_ 
all":{}}}], extra_sourcel[] 


可 以 看 到 ， 前 面 的 日 志 行 包含 查询 时 间 、 搜 索 类 型 和 搜索 源 本 身 ， 它 显示 了 执行 的 查询 。 

当然 , 你 的 配置 文件 中 可 能 有 不 同 的 值 , 但 慢 查 询 日 志 可 以 是 一 个 很 有 价值 的 源 ， 从 中 可 以 
找到 执行 时 间 过 长 的 、 可 能 需要 定义 预 热 的 查询 , 它们 可 能 是 父子 查询 , 需要 获取 一 些 标识 符 来 
提高 性 能 ， 或 者 你 第 一 次 使 用 了 一 些 费 时 的 过 滤器 ? 

















应 该 记 住 ， 不 要 让 你 的 Elasticsearch 集 群 加 载 过 多 的 预 热 查询 ， 因 为 最 终 你 
~ 可 能 会 花 太 多 的 时 间 预 热 ， 而 不 是 处 理 你 的 生产 查询 。 


8.6 ”使 用 索引 别名 来 简化 你 的 日 常 工作 


当 在 Elasticsearch 中 使 用 多 个 索引 时 ， 你 可 能 有 时 会 忘记 它们 。 想 象 你 在 索引 中 存储 日 志 的 
场景 。 通常 ,日 志 消 息 的 数量 相当 大 ， 因 此 ， 把 数据 划分 是 一 个 好 的 解决 方案 。 一 种 逻辑 划分 方 
法 是 为 每 天 的 日 志 创 建 一 个 索引 (如 果 你 对 管理 日 志 的 开源 方案 感 兴趣 ， 可 以 看 看 
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http://logstash.net 上 的 Logstash )。 但 一 段 时 间 后 ， 如 果 保 存 了 所 有 索引 ， 就 会 开始 头疼 如 何 管理 
它们 。 应 用 程序 需要 管理 所 有 这 些 信息 ， 比 如 发 送 数据 到 哪个 索引 ,查询 哪个 索引 ， 等 等 。 通 过 
使 用 别名 ， 可 以 改变 这 个 状况 ， 使 用 一 个 名 字 来 跟 多 个 索引 打交道 ， 就 像 使 用 一 个 索引 一 样 。 























8.6.1 别名 
什么 是 索引 别名 ? 它 是 一 个 或 多 个 索引 的 一 个 附加 名 称 , 允许 使 用 这 个 名 称 来 查询 索引 。 一 
个 别名 可 以 对 应 多 个 索引 ,反之 亦 然 , 一 个 索引 可 以 是 多 个 别名 的 一 部 分 。 然 而 , 请 记 住 , 你 不 








能 使 用 对 应 多 个 索引 的 别名 来 进行 索引 或 实时 的 GET 操 作 。 如 果 你 这 样 做 ，Elasticsearch 将 抛 出 
一 个 异常 (但 可 以 使 用 对 应 单个 索引 的 别名 来 进行 索引 操作 )， 因 为 Elasticsearch 不 知道 应 该 把 索 
引 建 立 到 哪个 索引 上 ， 或 从 哪个 索引 获取 文档 。 





8.6.2 ”创建 别名 


为 创建 一 个 索引 别名 ， 需 要 在 _aliases REST 端 点 上 执行 一 个 HTTP POST 方法 。 例 如 ， 如 
下 的 请 求 将 创建 一 个 名 为 wveek12 的 别名 ， 它 包含 daay10、day11 和 day12 这 些 索 引 。 


Curl -XPOST 'localhost:9200/ aliases' -d '{ 
"actions" : [ 


{ "add" { "index" : "dayl0", "alias" : "week12" } } 
{ "add" : { "index" : "dayll", "alias" : "week12" } }, 
{ "add" { "index" : "dayl2", "alias" : "week12" } } 


] 
} 


如 果 我 们 的 Elasticsearch 集 群 中 不 存在 week12 别 名 ， 上 述 命令 将 创建 它 。 如 果 存在 ， 该 命令 
将 只 是 把 指定 的 索引 添加 进去。 

之 前 ， 执 行 一 个 跨 三 个 索引 的 搜索 是 这 样 的 : 

curl -XGET 'localhost:9200/dayl0,dayll,day12/_search?q=test'"' 

如 果 一 切 顺 利 ， 现 在 可 以 这 样 执行 : 

curl -XGET 'localhost:9200/week12/_ search?q=test' 


这 不 是 更 好 吗 ? 





8.6.3 ”修改 别名 


当然 ， 你 可 以 从 别名 中 移 除 索引 。 这 与 添加 索引 到 别名 类 似 ， 但 使 用 remove 命 令 ， 而 不 是 
adg。 例 如 ,为 了 从 week12 中 移 除 day9 索 引 ， 执 行 以 下 命令 : 
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Curl -XPOST 'localhost:9200/ aliases' -d '{ 
"actions" : [ 
{ "remove" : { "index" : "day9", "alias" : "week12" } } 
] 
}7 
8.6.4 ”合并 命令 


add 和 remove 命 令 可 以 在 一 个 请 求 中 发 送 。 例如 , 想 合 


请 求 中 ， 可 以 发 送 以 下 命令 : 


并 





之 前 发 送 的 所 有 命令 到 一 个 单一 的 


curl -XPOST 'localhost:9200/ aliases' -Gd '{ 
"actions" : [ 
{ "add" : { "index" : "dayl0", "alias" : "week12" } }, 
{ "add" : { "index" : "dayll", "alias" : "week12" } }, 
{ "add" : { "index" : "dayl2", "alias" : "week12" } }, 
{ "remove" : { "index" : "day9", "alias" : "week12" } } 
] 
各 


8.6.5 ”获取 所 有 别名 











除了 对 别名 添加 或 移 除 索引 ， 使 用 Elasticsearch 的 应 用 程序 ， 可 能 需要 获取 集群 中 的 所 有 别 
名 或 跟 一 个 索引 连接 的 所 有 别名 。 为 了 获取 这 些 别名 ， 发 送 一 个 HTTP GET 命 令 。 例 如 ， 下 面 的 





curl 
curl 


-XGET 
-XGET 


'localhost:9200/day10/_aliases' 
"Localhost :9200/_aliases' 


第 二 个 命令 返回 的 响应 如 下 : 


{ 
"day10" : { 
"aliases" : { 
"week12" : { } 
} 
Ys 
"dayll" : { 
"aliases" : { 
"week12" : { } 
} 
3 
"day1l2" : { 
"aliases" : { 
"week12" : { } 
} 
} 


第 一 个 命令 获取 aay10 索 引 的 所 有 别名 ， 第 二 个 命令 获取 所 有 可 能 的 别名 : 
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8.6.6” 移 除 别 名 
可 以 使 用 _alias 端 点 移 除 一 个 别名 。 例 如， 发 送 下 面 命令 将 从 aata 索 引 移 除 client 别 名 : 


Curl -XDELETE localhost:9200/data/ alias/client 





8.6.7 ”别名 中 的 过 滤 


可 以 像 在 SQL 数据 库 中 使 用 视图 一 样 来 使 用 别名 。 你 可 以 使 用 完整 的 查询 DSL ( 第 2 章 详细 
讨论 过 )， 将 你 的 查询 应 用 到 所 有 的 count 、search、delete， 等 等 。 

来 看 一 个 例子 。 假 设想 要 一 个 别名 返回 特定 客户 的 数据 ,以便 在 应 用 程序 中 使 用 。 客 户 标识 
符 存 在 clientIq 字 段 上 ， 我 们 对 客户 12345 感 兴趣 。 所 以 ， 在 数据 索引 中 创建 一 个 名 为 client 
的 别名 ， 它 自动 在 clientIia 上 应 用 一 个 过 滤器 ; 


Curl -XPOST 'localhost:9200/ aliases' -d '{ 











"actions" : [ 
{ 
"add" : { 
"index" : "data", 
"alias" : "client", 
"filter" : { "term" : { "clientId" : "12345" } } 
} 
}] 


量 二 
所 以 ， 当 使 用 该 别名 时 ， 你 的 请 求 将 总 是 被 一 个 词 条 查询 过 滤 ， 确 保 所 有 文档 的 clientId 
字段 都 等 于 12345 。 


8.6.8 别名 和 路 由 


跟 在 别名 中 使 用 过 滤器 类 似 , 可 以 在 别名 中 添加 路 由 值 。 假设 我 们 在 使 用 基于 用 户 标 识 符 的 
路 由 ， 且 想 在 别名 中 使 用 相同 的 路 由 值 ， 则 在 名 为 client 的 别名 中 ， 我 们 将 在 查询 中 使 用 路 由 
值 12345、12346、12347， 而 在 索引 建立 中 只 使 用 12345。 为 此 ， 使 用 下 面 的 命令 创建 别名 : 


Curl -XPOST 'localhost:9200/ aliases' -d '{ 











"actions" : [ 
{ 
"add" : { 
"index" : "data", 
"alias" : "client", 
"search routing" : "12345,12346,12347", 
"index routing" : "12345" 
} 
}1] 
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这 样 ， 使 用 client 别 名 索引 数据 时 ， 将 使 用 index_routing 属 性 的 值 。 在 查询 时 ， 将 使 用 


search_routing 属 性 值 。 
还 有 一 件 事 。 请 看 发 送 到 上 述 别名 的 如 下 查询 : 
Curl -XGET 'localhost:9200/client/ search?q=test&routing=99999,12345' 


它 将 使 用 12345 作 为 路 由 值 。 这 是 因为 Elasticsearch 将 使 用 search_routing 属 性 值 和 查询 路 
由 参数 值 的 共同 值 ， 在 我 们 的 例子 中 是 12345。 















































8.7 ”Elasticsearch 插件 


在 本 书 不 同 的 地 方 ， 我 们 使 用 了 不 同 的 Elasticsearch 插 件 。 你 可 能 还 记得 6.5 节 描述 过 的 ， 脚 
本 中 使 用 的 额外 编程 语言 和 对 附件 的 支持 。 本 节 将 介绍 插件 如 何 工 作 以 及 安装 。 























8.7.1 基础 知识 


Elasticsearch 插 件 位 于 plugins 目 录 的 各 自 子 目 录 中 。 如 果 从 网 站 上 下 载 一 个 新 的 插件 ， 你 可 
以 用 该 插件 名 创建 一 个 新 目录 , 并 把 捅 件 存 档 解压 到 这 个 目录 中 。 还 有 个 更 方便 的 安装 方法 : 使 
用 插件 脚本 。 我 们 在 本 书 中 已 经 用 过 几 次 ， 所 以 现在 该 描述 这 个 工具 了 。 


Elasticsearch 有 两 种 主要 类 型 的 插件 。 这 两 种 类 型 可 以 基于 其 内 容 来 分 类 : Java 插 件 和 站 点 插 
件 ( site plugins )。Elasticsearch 把 站 点 插件 当成 被 内 置 的 HTITP 服 务 器 处理 的 文件 集 ， 处 于 
/ plugin/plugin name/URL ( 比如 / plugin/bigdesk ) 下 面 。 此 外 ,任何 一 个 没有 Java 内 容 的 插件 将 
被 自动 视 为 站 点 插件 ， 就 这 么 简单 。 在 Elasticsearch 看 来 ,， 站 点 插件 不 会 改变 Elasticsearch 的 行为 。 
Java 插 件 通 常 包 含 .jar 文 件 ， 被 es-plugin.properties 文 件 扫描 。 该 文件 包含 主要 类 的 信息 ， 
Elasticsearch 使 用 该 类 作为 入 口 来 配置 插件 并 扩展 Elasticsearch 的 功能 。Java 插 件 可 以 包含 站 点 部 
分 ,被 内 置 的 HTTP 服 务 器 使 用 ( 跟 站 点 插件 一 样 )， 这 部 分 需要 放置 在 _site 目 录 中 。 







































































8.7.2 安装 插件 


默认 情况 下 ,插件 从 网 站 下 载 。 如 果 该 网 站 找 不 到 插件 ,将 检查 Maven Central ( http://search. 
maven.org/) 、Maven Sonatype(https://repository.sonatype.org/) 和 GitHub ( https://github. com/) 等 库 。 
插件 工具 假定 给 定 的 插件 地 址 由 组 织 名 称 、 插 件 名 称 和 版 本 号 组 成 。 看 看 下 面 的 命令 : 

















bin/plugin -install elasticsearch/elasticsearch-lang-javascript/2.0.0.RC1 

上 述 命令 将 安装 一 个 插件 ， 该 插件 允许 使 用 额外 的 脚本 语言 : JavaScript。 选 择 该 插件 的 
2.0.0.RC1 版 本 。 也 可 以 省 略 版 本 号 ， 那 样 ，Elasticsearch 将 尝试 寻找 跟 Elasticsearch 版 本 号 一 样 的 
版 本 或 者 最 新 的 主 版 本 。 
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我 们 期 待命 令 的 结果 ， 下 面 是 执行 上 述 命令 的 一 个 示例 结 





-> Installing elasticsearch/elasticsearch-lang-javascript/2.0.0.RC1... 
Trying http://download.elasticsearch.org/elasticsearch/elasticsearch- 
lang-javascript/elasticsearch-lang-javascript-2.0.0.RC1 .zip... 
Downloading 


Installed elasticsearch/elasticsearch-lang-javascript/2.0.0.RC1 into / 
opt/elasticsearch-1.0.0/plugins/lang-javascript 


如 果 你 编写 自己 的 插件 ， 没 有 访问 上 述 网 站 的 权限 ， 也 没有 问题 。 插 件 工具 提供 了 -ur1 选 
项 ， 人 允许 为 插件 设置 包括 本 地 文件 系统 (使 用 file:/ /前 级 ) 在 内 的 任何 地 址 。 例如， 下 面 的 命 
今 将 安装 存档 在 本 地 文件 系统 的 /tmp/elasticsearch-lang-javascript-2.0.0.RC1.zip 


里 的 插件 : 














bin/plugin -install lang-javascript -url file:///tmp/elasticsearch-lang- 
javascript-2.0.0.RC1.zip 


8.7.3” 移 除 插件 


移 除 插件 跟 移 除 目录 一 样 简 单 。 你 也 可 以 使 用 插件 工具 来 做 。 例 如 ， 为 了 移 除 
river-mongodb 插 件 ， 可 以 执行 下 面 的 命令 : 








bin/plugin -remove river-mongodb 


| 你 需要 重启 Elasticsearch 节 点 ， 以 让 插件 的 安装 或 移 除 生效 。 


8.8 更 新 设置 API 


Elasticsearch 人 允许 在 elasticsearch.yml 文 件 中 指定 各 种 参数 来 调 优 。 但 你 应 该 把 这 个 文件 当做 
默认 设置 ， 可 以 在 运行 时 通过 Elasticsearch REST API 修 改 。 


为 了 设置 其 中 一 个 属性 ， 需 要 使 用 HTTP PUT 方法 ， 发 送 一 个 合适 的 请 求 到 _ clustersetting 
URI。 我 们 有 两 个 选择 : 瞬时 和 永久 的 属性 设置 。 
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第 一 个 ， 瞬 时 ， 将 只 设置 属性 直到 第 一 次 重启 。 为 此 ， 发 送 下 面 的 命令 : 


curl -XPUT 'localhost:9200/ cluster/settings' -d '{ 
0 
w 
可 以 看 到 ， 在 上 面 的 命令 中 ,我 们 使 用 了 名 为 cransient 的 对 象 ， 并 在 其 中 添加 属性 定义 。 
这 意味 着 该 属性 值 将 生效 ， 直 到 重新 启动 。 如 果 希 望 属性 设置 在 重启 之 后 永久 生效 ， 使 用 名 称 


persistent， 而 不 是 transient。 
任何 时 候 ， 都 可 以 使 用 下 列 命令 来 获取 这 些 设置 : 


curl -XGET localhost:9200/_cluster/settings 


























8.9 小 结 


本 章 介 绍 了 如 何 为 集群 创建 备份 ; 创建 一 个 备份 存储 库 、 创 建 了 备份 , 并 管理 它们 。 我 们 了 
解 到 如 何 使 用 Elasticsearch API 监 控 集群 ,什么 是 cat API 以 及 为 什么 它 更 方便 使 用 。 我们 还 控制 了 
分 片 的 分 配 , 学 会 了 如 何在 集群 中 移动 分 片 和 控制 集群 再 平衡 。 我 们 使 用 预 热 功 能 为 生产 查询 准 
备 集群 ， 学 到 别名 如 何 帮 助 我 们 管理 集群 中 的 数据 。 最 后 ， 本 章 研究 了 Elasticsearch 择 件 ， 以 及 
如 何 使 用 Elasticsearch 提 供 的 更 新 设置 API。 


本 书 内 容 到 此 结束 了 。 我 们 希望 你 有 一 个 很 好 的 阅读 体验 并 觉得 这 是 本 有 趣 的 书 。 我 们 真 的 
希望 你 能 有 所 收获 ， 并 从 此 发 现在 日 常 工作 中 使 用 Elasticsearch 更 容易 了 。 作 为 本 书 的 作者 和 
Elasticsearch 用 户 ， 我 们 试图 带 给 读者 最 好 的 阅读 体验 。 当 然 ，Elasticsearch 还 有 很 多 书 中 没有 描 
述 的 内 容 ， 特 别 是 涉及 监控 、 管 理 功能 和 API 的 内 容 。 图 书 的 页 面 毕竟 是 有 限 的 ， 如 果 把 一 切 都 
描述 得 很 详细 ， 这 本 书 就 得 一 千 多 页 了。 此 外 ， 我 们 怒 怕 也 无 法 把 一 切 都 描述 得 足够 详细 。 
Elasticsearch 不 仅 是 用 户 友好 的 ， 还 提供 了 大 量 配置 选项 、 查 询 的 可 能 性 等 ， 因 此 ， 我 们 必须 选 
择 哪些 功能 要 详细 说 明 ， 哪 些 只 是 一 带 而 过 ， 哪 些 要 完全 跳 过 。 和 希望 本 书 对 主题 的 选择 是 对 的 。 


还 要 说 的 是 ， 记 住 Elasticsearch 在 不 断 演化 。 在 写 这 本 书 期 间 ， 我 们 经 历 了 一 些 稳定 的 版 本 ， 
最 终 发 布 了 1.0.0 和 1.0.1。 即 便 在 这 之 前 , 我们 也 知道 会 有 新 功能 和 改进 。 如 果 你 想 跟 进 正在 添加 
的 新 功能 ， 请 一 定 定期 检查 上 新 版 本 的 发 布 说 明 。 我 们 也 会 把 自 认 为 值得 一 提 的 新 功能 写 在 上 ， 
所 以 如 果 你 感 兴趣 ， 请 时 常 访问 此 网 站 。 





































































































图 灵 社 区 会 员 打 顺 顺 (lvshun@live.cn) 专 享 尊重 版 权 








多 六 图 灵 最 新 重点 图 书 


程序 员 苞 区 的 第 一 本 亲子 互动 编程 书 
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全 国 青 少年 信息 学 奥林匹克 竞赛 金牌 教练 曹 文 
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> 内 容 经 过 教育 专家 的 评审 ， 经 过 孩子 的 亲身 检 
验 ， 并 得 到 了 家 长 的 认可 
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父 与 子 的 编程 之 旅 
与 小 1 卡特 一 起 学 Python 书号 : 978-7-115-36717-4 
作者 : Warren Sande Carter Sande 
定价 : 69.00 元 
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Python 基础 教程 
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”给 真正 的 初学 者 写 的 入 门 稳 
二 全面 详尽 ，10 个 项目 引人入胜 
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Python 计算 机 视觉 编程 Python 开发 实战 Python 基础 教程 (第 2 版 .修订 版 ) 
书号 : 978-7-115-35232-3 书号 : 978-7-115-32089-6 书号 : 978-7-115-35352-8 
作者 : Jan Erik Solem 作者 : BePROUD 股份 有 限 公司 作者 : Magnus Lie Hetland 
定价 : 69.00 元 定价 : 79.00 元 定价 .79.00 元 
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Software Architecture for Developers 
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数据 结构 与 算法 
JavaScript 描 述 


Data Structures & Algorithms wth Javascript 
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程序 员 必 读 之 软件 架构 

书号 ; 978-7=115-37107-2 
作者 : Simon Brown 

定价 : 49.00 元 
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AngularJS 权威 教程 

书号 : 978=-7=-115-36647-4 
作者 : Ari Lerner 

定价 : 99.00 元 
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数据 结构 与 算法 JavaScript 描述 
书号 : 978-7-115-36339-8 
作者 : Michael McMillan 

定价 : 49.00 元 
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QQ 联系 我 们 


读者 QQO 群 ， 218139230 


一 微 博 联系 我 们 





























官方 账号 ; @ 图 灵 教 育 @ 图 灵 社 区 @ 医 
市 场合 作 : @ 图 灵 袁 野 

写作 本 版 书 ，@ 图 灵 小 花 

翻译 英文 书 : @ 李 松 峰 @ 朱 痢 ituring @ 楼 伟 
翻译 日 文书 或 文章 ; @ 图 灵 乐 声 

翻译 韩文 书 ，@ 图 灵 陈 曦 
电子 书 合作 ，@hi_jeanne 

图 灵 访 谈 /《 码 农 》 杂 志 : @ 李 盼 ituring 
加 入 我 们 : @ 王 子 是 好 人 


$s 


微 信 联系 我 们 
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Elasticsearch 是 基于 Lucene 的 新 一 代 分 布 式 、RESTful 风 格 的 开源 搜索 引擎， 具有 实时 搜索 、 稳 定 、 快 
速 、 安 装 使 用 方便 等 优点 。Elasticsearch 在 全 球 拥有 众多 知名 用 户 : GitHub 使 用 Elasticsearch 搜 索 20 TB 的 数 
据 一 一 包括 13 亿 文件 和 1300 亿 行 代 码 ， 有 “音频 分 享 界 YouTube” 之 称 的 SoundCloud 使 用 Elasticsearch 为 1.8 
亿 会 员 在 线 即 时 提供 音频 搜索 结果 ， 德 国 商务 社交 网 站 Xing 使 用 Elasticsearch 为 1400 万 会 员 提供 可 扩展 、 实 时 
的 搜索 ， 手 机 服务 网 站 Foursquare 使 用 Elasticsearch 实 时 搜索 5000 万 个 地 点 ， 浏 览 器 插件 StumbleUpon 利 用 
Elasticsearch 每 天 向 它们 的 社区 发 送 数 百 万 条 推荐 。 


本 书 介 绍 了 Elasticsearch 这 个 优秀 的 全 文 检索 和 分 
析 引 人 擎 从 安装 和 配置 到 集群 管理 的 各 方面 知识 。 本 书 这 
一 版 不 仅 补 充 了 上 一 版 中 遗漏 的 重要 内 容 ， 并 且 所 有 示 
例 和 功能 均 基于 Elasticsearch 服 务 器 1.0 版 进行 了 更 新 。 
你 可 以 从 头 开始 循序 渐进 地 学 习 本 书 ， 也 可 以 查阅 具体 
功能 解决 手头 问题 





-7-115-38032-6 
5 用 
分 类 建议 计算 机 /数据 库 /Elasticsearch 
定价 : 59.00 元 





看 完了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 或 作 译 者 协助 
答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : ebook@turingbook.com。 
在 这 里 可 以 找到 我 们 : 


微 博 @ 图 灵 教 育 : 好 书 、 活 动 每 日 播报 

微 博 @ 图 灵 社 区 : 电子 书 和 好 文章 的 消息 

微 博 @ 图 灵 新 知 : 图 灵 教 育 的 科普 小 组 

微 信 图 灵 访 谈 : ituring_interview， 讲 述 码 农 精彩 人 生 
微 信 图 灵 教 育 : turingbooks 


